Compreender a pontuação BLEU na PNL: avaliar a qualidade da tradução

Pontuação BLEU
Processamento de linguagem natural
Avaliação de tradução automática
Compreender a pontuação BLEU na PNL: avaliar a qualidade da tradução cover image

Definição

BLEU (BiLingual Evaluation Understudy) é uma métrica utilizada no processamento de linguagem natural (PNL) e na tradução automática para avaliar a qualidade do texto gerado em relação a uma ou mais traduções de referência de elevada qualidade. Mede a semelhança entre um texto gerado por máquina e um ou mais textos de referência gerados por humanos.

O BLEU funciona através da comparação de n-gramas (sequências de n palavras consecutivas) entre o texto gerado e os textos de referência. Calcula a precisão, considerando quantos n-gramas no texto gerado correspondem aos do(s) texto(s) de referência. A pontuação de precisão é então modificada por uma penalização de brevidade para evitar favorecer traduções mais curtas.

A pontuação BLEU é conhecida por se correlacionar bem com o julgamento humano sobre a qualidade da tradução.

A fórmula para calcular a pontuação BLEU envolve precisão e uma penalidade de brevidade. Aqui está uma versão simplificada da fórmula:

Onde

  • BP é a penalização por brevidade para ter em conta o comprimento do texto gerado em comparação com o(s) texto(s) de referência.

  • n é a ordem máxima de n-gramas considerada (geralmente 4).

  • P_i é a precisão do i-grama entre o texto gerado e o(s) texto(s) de referência.

A precisão p_i para cada i-grama é calculada dividindo o número de i-gramas correspondentes no texto gerado pelo número total de i-gramas no texto gerado. Este valor de precisão é multiplicado por todas as ordens de i-gramas e depois elevado à potência do recíproco de n (a ordem máxima de n-gramas).

A penalização por brevidade (BP) penaliza as traduções mais curtas, comparando o comprimento do texto gerado com o texto de referência mais próximo em termos de comprimento. É calculada da seguinte forma:

Onde

  • c é o comprimento do texto gerado

  • r é o comprimento do texto de referência mais próximo

Esta penalização evita que traduções demasiado curtas recebam pontuações desproporcionadamente elevadas.

Tenha em conta que esta é uma explicação simplificada da fórmula da pontuação BLEU. O cálculo efetivo pode envolver técnicas de suavização adicionais ou modificações para variações específicas do BLEU utilizadas em diferentes contextos.

Interpretação

A pontuação BLEU varia de 0 a 1, em que 1 indica uma correspondência perfeita entre o texto gerado e o(s) texto(s) de referência. As pontuações BLEU mais elevadas sugerem geralmente uma melhor qualidade de tradução, mas é essencial ter em conta as suas limitações, como o facto de não ter em conta o significado semântico ou a fluência.

A pontuação BLEU não é uma medida absoluta, e comparar as pontuações BLEU entre passagens, línguas, ou mesmo na mesma língua com diferentes números de traduções de referência (quanto mais traduções, maior a probabilidade de corresponder aos n-gramas candidatos) não é exato.

The following interpretation, however, can be used to get a rough idea of quality of the translations:

BLEUInterpretação
﹤0.1Quase inútil
0.1-0.19É difícil perceber o essencial
0.2-0.29O essencial é claro, mas apresenta erros gramaticais significativos
0.3-0.39Compreensível a boas traduções
0.4-0.49Traduções de alta qualidade
0.5-0.59Traduções de grande qualidade, adequadas e fluentes
≥0.6Qualidade frequentemente melhor do que a dos humanos

É importante notar que o BLEU é apenas uma das várias métricas utilizadas para avaliar a tradução automática e a geração de texto, e é frequentemente utilizado juntamente com outros métodos de avaliação para uma avaliação mais abrangente do desempenho do modelo.


Career Services background pattern

Serviços de carreira

Contact Section background image

Vamos manter-nos em contacto

Code Labs Academy © 2024 Todos os direitos reservados.