Definición
BLEU (BiLingual Evaluation Understudy), es una métrica utilizada en el procesamiento del lenguaje natural (PLN) y la traducción automática para evaluar la calidad del texto generado frente a una o varias traducciones de referencia de alta calidad. Mide la similitud entre un texto generado por una máquina y uno o varios textos de referencia generados por humanos.
BLEU funciona comparando n-gramas (secuencias de n palabras consecutivas) entre el texto generado y los textos de referencia. Calcula la precisión teniendo en cuenta cuántos n-gramas del texto generado coinciden con los del texto o textos de referencia. A continuación, la puntuación de precisión se modifica con una penalización por brevedad para evitar que se favorezcan las traducciones más cortas.
Se sabe que la puntuación BLEU se correlaciona bien con el juicio humano sobre la calidad de la traducción.
La fórmula para calcular la puntuación BLEU implica precisión y una penalización por brevedad. He aquí una versión simplificada de la fórmula:
Dónde
-
BP es la penalización por brevedad para tener en cuenta la longitud del texto generado en comparación con los textos de referencia.
-
n es el orden máximo de n-gramas considerado (normalmente 4).
-
P_i es la precisión del i-grama entre el texto generado y el texto o textos de referencia.
La precisión p_i de cada i-grama se calcula dividiendo el número de i-gramas coincidentes en el texto generado por el número total de i-gramas del texto generado. Este valor de precisión se multiplica por todos los órdenes de i-gramas y luego se eleva a la potencia del recíproco de n (el orden máximo de n-gramas).
La penalización por brevedad (PB) penaliza las traducciones más cortas comparando la longitud del texto generado con el texto de referencia más cercano en términos de longitud. Se calcula como
Dónde
-
c es la longitud del texto generado
-
r es la longitud del texto de referencia más cercano
Esta penalización impide que las traducciones demasiado cortas reciban puntuaciones desproporcionadamente altas.
Tenga en cuenta que se trata de una explicación simplificada de la fórmula de la puntuación BLEU. El cálculo real puede implicar técnicas de suavizado adicionales o modificaciones para variaciones específicas de BLEU utilizadas en diferentes contextos.
Interpretación
La puntuación BLEU oscila entre 0 y 1, donde 1 indica una coincidencia perfecta entre el texto generado y el texto o textos de referencia. Las puntuaciones BLEU más altas suelen indicar una mejor calidad de la traducción, pero es esencial tener en cuenta sus limitaciones, como no tener en cuenta el significado semántico o la fluidez.
La puntuación BLEU no es una medida absoluta, y comparar puntuaciones BLEU entre pasajes, idiomas o incluso en el mismo idioma con diferentes números de traducciones de referencia (cuantas más traducciones, más probabilidades de coincidir con los n-gramas candidatos) no es exacto.
The following interpretation, however, can be used to get a rough idea of quality of the translations:
BLEU | Interpretación |
---|---|
﹤0.1 | Casi inútil |
0.1-0.19 | Difícil de entender |
0.2-0.29 | La esencia es clara, pero tiene importantes errores gramaticales |
0.3-0.39 | Comprensible a buenas traducciones |
0.4-0.49 | Traducciones de alta calidad |
0.5-0.59 | Traducciones de gran calidad, adecuadas y fluidas |
≥0.6 | La calidad suele ser mejor que la humana |
Cabe señalar que BLEU es sólo una de las diversas métricas utilizadas para evaluar la traducción automática y la generación de texto, y a menudo se utiliza junto con otros métodos de evaluación para obtener una valoración más completa del rendimiento del modelo.