Definición
BLEU (BiLingual Evaluation Understudy), é unha métrica utilizada no procesamento da linguaxe natural (PNL) e na tradución automática para avaliar a calidade do texto xerado unha ou máis traducións de referencia de alta calidade. Mide o parecido que é un texto xerado pola máquina a un ou máis textos de referencia xerados por humanos.
BLEU traballa comparando n-gramas (secuencias de n palabras consecutivas) entre o texto xerado e os textos de referencia. Calcula a precisión, tendo en conta cantos n-gramos no texto xerado coinciden cos do texto(s) de referencia. A puntuación de precisión é entón modificada por unha penalización de brevidade para evitar favorecer traducións máis curtas.
Sábese que a puntuación BLEU se correlaciona ben co xuízo humano sobre a calidade da tradución.
A fórmula para calcular a puntuación BLEU implica precisión e unha penalización de brevidade. Aquí tes unha versión simplificada da fórmula:
Onde
-
BP é a penalización de brevidade para ter en conta a lonxitude do texto xerado en comparación cos textos de referencia.
-
n é a orde máxima de n-gramas considerada (normalmente 4).
-
P_i é a precisión do i-grama entre o texto xerado e o(s) texto(s) de referencia.
A precisión p_i para cada i-gram calcúlase dividindo o número de i-grams coincidentes no texto xerado polo número total de i-grams no texto xerado. Este valor de precisión multiplícase para todas as ordes de i-gram e, a continuación, elévase á potencia do recíproco de n (a orde máxima de n-gram).
A penalización de brevidade (BP) penaliza as traducións máis curtas ao comparar a lonxitude do texto xerado co texto de referencia máis próximo en termos de lonxitude. Calcúlase como:
Onde
-
c é a lonxitude do texto xerado
-
r é a lonxitude do texto de referencia máis próximo
Esta penalización evita que as traducións demasiado curtas reciban puntuacións desproporcionadamente altas.
Teña en conta que esta é unha explicación simplificada da fórmula de puntuación BLEU. O cálculo real pode implicar técnicas de suavizado adicionais ou modificacións para variacións específicas de BLEU utilizadas en diferentes contextos.
Interpretación
A puntuación BLEU varía de 0 a 1, onde 1 indica unha coincidencia perfecta entre o texto xerado e o(s) texto(s) de referencia. As puntuacións BLEU máis altas suxiren xeralmente unha mellor calidade da tradución, pero é esencial ter en conta as súas limitacións, como non ter en conta o significado semántico ou a fluidez.
A puntuación BLEU non é unha medida absoluta, e comparar as puntuacións BLEU entre pasaxes, idiomas ou mesmo no mesmo idioma con diferentes números de traducións de referencia (cantas máis traducións, máis probabilidades de coincidir cos n-gramas candidatos) non é precisa.
A seguinte interpretación, non obstante, pódese usar para ter unha idea aproximada de calidade das traducións:
<táboa>
</táboa>
Paga a pena notar que BLEU é só unha das varias métricas utilizadas para avaliar a tradución automática e a xeración de texto, e adoita utilizarse xunto con outros métodos de avaliación para unha avaliación máis completa do rendemento do modelo.