Comprensión da puntuación BLEU en PNL: avaliación da calidade da tradución

Puntuación BLEU
procesamento da linguaxe natural
avaliación da tradución automática
Comprensión da puntuación BLEU en PNL: avaliación da calidade da tradución cover image

Definición

BLEU (BiLingual Evaluation Understudy), é unha métrica utilizada no procesamento da linguaxe natural (PNL) e na tradución automática para avaliar a calidade do texto xerado unha ou máis traducións de referencia de alta calidade. Mide o parecido que é un texto xerado pola máquina a un ou máis textos de referencia xerados por humanos.

BLEU traballa comparando n-gramas (secuencias de n palabras consecutivas) entre o texto xerado e os textos de referencia. Calcula a precisión, tendo en conta cantos n-gramos no texto xerado coinciden cos do texto(s) de referencia. A puntuación de precisión é entón modificada por unha penalización de brevidade para evitar favorecer traducións máis curtas.

Sábese que a puntuación BLEU se correlaciona ben co xuízo humano sobre a calidade da tradución.

A fórmula para calcular a puntuación BLEU implica precisión e unha penalización de brevidade. Aquí tes unha versión simplificada da fórmula:

Onde

  • BP é a penalización de brevidade para ter en conta a lonxitude do texto xerado en comparación cos textos de referencia.

  • n é a orde máxima de n-gramas considerada (normalmente 4).

  • P_i é a precisión do i-grama entre o texto xerado e o(s) texto(s) de referencia.

A precisión p_i para cada i-gram calcúlase dividindo o número de i-grams coincidentes no texto xerado polo número total de i-grams no texto xerado. Este valor de precisión multiplícase para todas as ordes de i-gram e, a continuación, elévase á potencia do recíproco de n (a orde máxima de n-gram).

A penalización de brevidade (BP) penaliza as traducións máis curtas ao comparar a lonxitude do texto xerado co texto de referencia máis próximo en termos de lonxitude. Calcúlase como:

Onde

  • c é a lonxitude do texto xerado

  • r é a lonxitude do texto de referencia máis próximo

Esta penalización evita que as traducións demasiado curtas reciban puntuacións desproporcionadamente altas.

Teña en conta que esta é unha explicación simplificada da fórmula de puntuación BLEU. O cálculo real pode implicar técnicas de suavizado adicionais ou modificacións para variacións específicas de BLEU utilizadas en diferentes contextos.

Interpretación

A puntuación BLEU varía de 0 a 1, onde 1 indica unha coincidencia perfecta entre o texto xerado e o(s) texto(s) de referencia. As puntuacións BLEU máis altas suxiren xeralmente unha mellor calidade da tradución, pero é esencial ter en conta as súas limitacións, como non ter en conta o significado semántico ou a fluidez.

A puntuación BLEU non é unha medida absoluta, e comparar as puntuacións BLEU entre pasaxes, idiomas ou mesmo no mesmo idioma con diferentes números de traducións de referencia (cantas máis traducións, máis probabilidades de coincidir cos n-gramas candidatos) non é precisa.

A seguinte interpretación, non obstante, pódese usar para ter unha idea aproximada de calidade das traducións:

<táboa>

BLEU Interpretación ﹤0,1 Case inútil 0,1-0,19 É difícil entender a idea principal 0,2-0,29 A esencia é clara, pero ten erros gramaticais significativos 0,3-0,39 Comprensible a boas traducións 0,4-0,49 Traducións de alta calidade 0,5-0,59 Traducións de moi alta calidade, adecuadas e fluídas ≥0,6 A calidade a miúdo é mellor que os humanos

</táboa>

Paga a pena notar que BLEU é só unha das varias métricas utilizadas para avaliar a tradución automática e a xeración de texto, e adoita utilizarse xunto con outros métodos de avaliación para unha avaliación máis completa do rendemento do modelo.


Career Services background pattern

Servizos de Carreira

Contact Section background image

Mantémonos en contacto

Code Labs Academy © 2024 Todos os dereitos reservados.