Comprensión da puntuación BLEU en PNL: avaliación da calidade da tradución

Puntuación BLEU
procesamento da linguaxe natural
avaliación da tradución automática

Actualizado en September 24, 20244 Minutos lidos

Comprensión da puntuación BLEU en PNL: avaliación da calidade da tradución cover image

Definición

BLEU (BiLingual Evaluation Understudy), é unha métrica utilizada no procesamento da linguaxe natural (PNL) e na tradución automática para avaliar a calidade do texto xerado unha ou máis traducións de referencia de alta calidade. Mide o parecido que é un texto xerado pola máquina a un ou máis textos de referencia xerados por humanos.

BLEU traballa comparando n-gramas (secuencias de n palabras consecutivas) entre o texto xerado e os textos de referencia. Calcula a precisión, tendo en conta cantos n-gramos no texto xerado coinciden cos do texto(s) de referencia. A puntuación de precisión é entón modificada por unha penalización de brevidade para evitar favorecer traducións máis curtas.

Sábese que a puntuación BLEU se correlaciona ben co xuízo humano sobre a calidade da tradución.

A fórmula para calcular a puntuación BLEU implica precisión e unha penalización de brevidade. Aquí tes unha versión simplificada da fórmula:

Onde

  • BP é a penalización de brevidade para ter en conta a lonxitude do texto xerado en comparación cos textos de referencia.

  • n é a orde máxima de n-gramas considerada (normalmente 4).

  • P_i é a precisión do i-grama entre o texto xerado e o(s) texto(s) de referencia.

A precisión p_i para cada i-gram calcúlase dividindo o número de i-grams coincidentes no texto xerado polo número total de i-grams no texto xerado. Este valor de precisión multiplícase para todas as ordes de i-gram e, a continuación, elévase á potencia do recíproco de n (a orde máxima de n-gram).

A penalización de brevidade (BP) penaliza as traducións máis curtas ao comparar a lonxitude do texto xerado co texto de referencia máis próximo en termos de lonxitude. Calcúlase como:

Onde

  • c é a lonxitude do texto xerado

  • r é a lonxitude do texto de referencia máis próximo

Esta penalización evita que as traducións demasiado curtas reciban puntuacións desproporcionadamente altas.

Teña en conta que esta é unha explicación simplificada da fórmula de puntuación BLEU. O cálculo real pode implicar técnicas de suavizado adicionais ou modificacións para variacións específicas de BLEU utilizadas en diferentes contextos.

Interpretación

A puntuación BLEU varía de 0 a 1, onde 1 indica unha coincidencia perfecta entre o texto xerado e o(s) texto(s) de referencia. As puntuacións BLEU máis altas suxiren xeralmente unha mellor calidade da tradución, pero é esencial ter en conta as súas limitacións, como non ter en conta o significado semántico ou a fluidez.

A puntuación BLEU non é unha medida absoluta, e comparar as puntuacións BLEU entre pasaxes, idiomas ou mesmo no mesmo idioma con diferentes números de traducións de referencia (cantas máis traducións, máis probabilidades de coincidir cos n-gramas candidatos) non é precisa.

A seguinte interpretación, non obstante, pódese usar para ter unha idea aproximada de calidade das traducións:

<táboa>

BLEU Interpretación ﹤0,1 Case inútil 0,1-0,19 É difícil entender a idea principal 0,2-0,29 A esencia é clara, pero ten erros gramaticais significativos 0,3-0,39 Comprensible a boas traducións 0,4-0,49 Traducións de alta calidade 0,5-0,59 Traducións de moi alta calidade, adecuadas e fluídas ≥0,6 A calidade a miúdo é mellor que os humanos

</táboa>

Paga a pena notar que BLEU é só unha das varias métricas utilizadas para avaliar a tradución automática e a xeración de texto, e adoita utilizarse xunto con outros métodos de avaliación para unha avaliación máis completa do rendemento do modelo.

Considere unha carreira tecnolóxica: aprende máis sobre os bootcamps en liña de CLA

Career Services background pattern

Servizos de Carreira

Contact Section background image

Mantémonos en contacto

Code Labs Academy © 2025 Todos os dereitos reservados.