Comprendre le score BLEU dans le NLP : évaluer la qualité de la traduction

Mis à jour sur September 24, 2024 3 MINUTES LIRE

Définition

BLEU (BiLingual Evaluation Understudy) est une mesure utilisée dans le traitement du langage naturel (NLP) et la traduction automatique pour évaluer la qualité d’un texte généré par rapport à une ou plusieurs traductions de référence de haute qualité. Il mesure le degré de similitude entre un texte généré par une machine et un ou plusieurs textes de référence générés par l’homme.

Le BLEU compare les n-grammes (séquences de n mots consécutifs) entre le texte généré et les textes de référence. Il calcule la précision en tenant compte du nombre de n-grammes du texte généré qui correspondent à ceux du ou des textes de référence. Le score de précision est ensuite modifié par une pénalité de brièveté afin d’éviter de favoriser les traductions plus courtes.

Le score BLEU est connu pour être en corrélation avec le jugement humain sur la qualité de la traduction.

La formule de calcul du score BLEU implique une précision et une pénalité de brièveté. Voici une version simplifiée de la formule :

Où

BP est la pénalité de brièveté qui tient compte de la longueur du texte généré par rapport au(x) texte(s) de référence.
n est l’ordre maximal des n-grammes pris en compte (généralement 4).
P_i est la précision du i-gramme entre le texte généré et le(s) texte(s) de référence.

La précision p_i pour chaque i-gramme est calculée en divisant le nombre de i-grammes correspondants dans le texte généré par le nombre total de i-grammes dans le texte généré. Cette valeur de précision est multipliée pour tous les ordres de i-grammes, puis élevée à la puissance de la réciproque de n (l’ordre maximal de n-grammes).

La pénalité de brièveté (BP) pénalise les traductions plus courtes en comparant la longueur du texte généré avec le texte de référence le plus proche en termes de longueur. Elle est calculée comme suit :

Où

c est la longueur du texte généré
r est la longueur du texte de référence le plus proche

Cette pénalité permet d’éviter que des traductions trop courtes obtiennent des notes trop élevées.

N’oubliez pas qu’il s’agit d’une explication simplifiée de la formule du score BLEU. Le calcul réel peut impliquer des techniques de lissage supplémentaires ou des modifications pour des variations spécifiques de BLEU utilisées dans différents contextes.

Interprétation

Le score BLEU est compris entre 0 et 1, 1 indiquant une correspondance parfaite entre le texte généré et le(s) texte(s) de référence. Des scores BLEU plus élevés indiquent généralement une meilleure qualité de traduction, mais il est essentiel de tenir compte de ses limites, comme le fait de ne pas prendre en compte le sens sémantique ou la fluidité.

Le score BLEU n’est pas une mesure absolue, et la comparaison des scores BLEU entre les passages, les langues, ou même dans la même langue avec différents nombres de traductions de référence (plus il y a de traductions, plus il y a de chances que les n-grammes candidats correspondent) n’est pas exacte.

The following interpretation, however, can be used to get a rough idea of quality of the translations:

BLEU	Interprétation
﹤0.1	Presque inutile
0.1-0.19	Difficile de saisir l'essentiel
0.2-0.29	L'essentiel est clair, mais comporte des erreurs grammaticales significatives.
0.3-0.39	Compréhensible pour de bonnes traductions
0.4-0.49	Des traductions de haute qualité
0.5-0.59	Des traductions de très haute qualité, adéquates et fluides
≥0.6	Une qualité souvent supérieure à celle des humains

Il convient de noter que le BLEU n’est qu’une mesure parmi d’autres utilisées pour évaluer la traduction automatique et la génération de texte, et qu’il est souvent utilisé avec d’autres méthodes d’évaluation pour une évaluation plus complète des performances du modèle.