Definició
BLEU (BiLlingual Evaluation Understudy), és una mètrica que s'utilitza en el processament del llenguatge natural (NLP) i la traducció automàtica per avaluar la qualitat del text generat en comparació amb una o més traduccions de referència d'alta qualitat. Mesura la semblança d'un text generat per màquina a un o més textos de referència generats per humans.
BLEU funciona comparant n-grams (seqüències de n paraules consecutives) entre el text generat i els textos de referència. Calcula la precisió, tenint en compte quants n-grams del text generat coincideixen amb els dels textos de referència. Aleshores, la puntuació de precisió es modifica mitjançant una penalització de brevetat per evitar afavorir traduccions més curtes.
Se sap que la puntuació BLEU es correlaciona bé amb el judici humà sobre la qualitat de la traducció.
La fórmula per calcular la puntuació BLEU implica precisió i una penalització de brevetat. Aquí teniu una versió simplificada de la fórmula:
On
-
BP és la penalització de la brevetat per tenir en compte la longitud del text generat en comparació amb els textos de referència.
-
n és l'ordre màxim de n grams considerat (normalment 4).
-
P_i és la precisió de l'i-grama entre el text generat i el text(s) de referència.
La precisió p_i per a cada i-gram es calcula dividint el nombre d'i-grams coincidents en el text generat pel nombre total d'i-grams en el text generat. Aquest valor de precisió es multiplica junts per a tots els ordres d'i-gram i després s'eleva a la potència del recíproc de n (l'ordre màxim de n-gram).
La penalització de brevetat (BP) penalitza les traduccions més curtes en comparar la longitud del text generat amb el text de referència més proper en termes d'extensió. Es calcula com:
On
-
c és la longitud del text generat
-
r és la longitud del text de referència més proper
Aquesta penalització evita que les traduccions massa curtes rebin puntuacions desproporcionadament altes.
Tingueu en compte que aquesta és una explicació simplificada de la fórmula de la puntuació BLEU. El càlcul real pot implicar tècniques de suavització addicionals o modificacions per a variacions específiques de BLEU utilitzades en diferents contextos.
Interpretació
La puntuació BLEU oscil·la entre 0 i 1, on 1 indica una coincidència perfecta entre el text generat i el text(s) de referència. Les puntuacions BLEU més altes generalment suggereixen una millor qualitat de traducció, però és essencial tenir en compte les seves limitacions, com ara no tenir en compte el significat semàntic o la fluïdesa.
La puntuació BLEU no és una mesura absoluta, i comparar les puntuacions BLEU entre passatges, idiomes o fins i tot en el mateix idioma amb diferents nombres de traduccions de referència (com més traduccions, més probabilitats de coincidir amb els n-grams candidats) no és precisa.
La següent interpretació, però, es pot utilitzar per tenir una idea aproximada de la qualitat de les traduccions:
Val la pena assenyalar que BLEU és només una de les diverses mètriques que s'utilitzen per avaluar la traducció automàtica i la generació de text, i sovint s'utilitza juntament amb altres mètodes d'avaluació per a una avaluació més completa del rendiment del model.