Definição
BLEU (BiLingual Evaluation Understudy) é uma métrica utilizada no processamento de linguagem natural (PNL) e na tradução automática para avaliar a qualidade do texto gerado em relação a uma ou mais traduções de referência de elevada qualidade. Mede a semelhança entre um texto gerado por máquina e um ou mais textos de referência gerados por humanos.
O BLEU funciona através da comparação de n-gramas (sequências de n palavras consecutivas) entre o texto gerado e os textos de referência. Calcula a precisão, considerando quantos n-gramas no texto gerado correspondem aos do(s) texto(s) de referência. A pontuação de precisão é então modificada por uma penalização de brevidade para evitar favorecer traduções mais curtas.
A pontuação BLEU é conhecida por se correlacionar bem com o julgamento humano sobre a qualidade da tradução.
A fórmula para calcular a pontuação BLEU envolve precisão e uma penalidade de brevidade. Aqui está uma versão simplificada da fórmula:
Onde
-
BP é a penalização por brevidade para ter em conta o comprimento do texto gerado em comparação com o(s) texto(s) de referência.
-
n é a ordem máxima de n-gramas considerada (geralmente 4).
-
P_i é a precisão do i-grama entre o texto gerado e o(s) texto(s) de referência.
A precisão p_i para cada i-grama é calculada dividindo o número de i-gramas correspondentes no texto gerado pelo número total de i-gramas no texto gerado. Este valor de precisão é multiplicado por todas as ordens de i-gramas e depois elevado à potência do recíproco de n (a ordem máxima de n-gramas).
A penalização por brevidade (BP) penaliza as traduções mais curtas, comparando o comprimento do texto gerado com o texto de referência mais próximo em termos de comprimento. É calculada da seguinte forma:
Onde
-
c é o comprimento do texto gerado
-
r é o comprimento do texto de referência mais próximo
Esta penalização evita que traduções demasiado curtas recebam pontuações desproporcionadamente elevadas.
Tenha em conta que esta é uma explicação simplificada da fórmula da pontuação BLEU. O cálculo efetivo pode envolver técnicas de suavização adicionais ou modificações para variações específicas do BLEU utilizadas em diferentes contextos.
Interpretação
A pontuação BLEU varia de 0 a 1, em que 1 indica uma correspondência perfeita entre o texto gerado e o(s) texto(s) de referência. As pontuações BLEU mais elevadas sugerem geralmente uma melhor qualidade de tradução, mas é essencial ter em conta as suas limitações, como o facto de não ter em conta o significado semântico ou a fluência.
A pontuação BLEU não é uma medida absoluta, e comparar as pontuações BLEU entre passagens, línguas, ou mesmo na mesma língua com diferentes números de traduções de referência (quanto mais traduções, maior a probabilidade de corresponder aos n-gramas candidatos) não é exato.
The following interpretation, however, can be used to get a rough idea of quality of the translations:
BLEU | Interpretação |
---|---|
﹤0.1 | Quase inútil |
0.1-0.19 | É difícil perceber o essencial |
0.2-0.29 | O essencial é claro, mas apresenta erros gramaticais significativos |
0.3-0.39 | Compreensível a boas traduções |
0.4-0.49 | Traduções de alta qualidade |
0.5-0.59 | Traduções de grande qualidade, adequadas e fluentes |
≥0.6 | Qualidade frequentemente melhor do que a dos humanos |
É importante notar que o BLEU é apenas uma das várias métricas utilizadas para avaliar a tradução automática e a geração de texto, e é frequentemente utilizado juntamente com outros métodos de avaliação para uma avaliação mais abrangente do desempenho do modelo.