Zrozumienie wyniku BLEU w NLP: ocena jakości tłumaczenia

Wynik BLEU
przetwarzanie języka naturalnego
ocena tłumaczenia maszynowego
Zrozumienie wyniku BLEU w NLP: ocena jakości tłumaczenia cover image

Definicja

BLEU (BiLingual Evaluation Understudy) to wskaźnik stosowany w przetwarzaniu języka naturalnego (NLP) i tłumaczeniu maszynowym do oceny jakości wygenerowanego tekstu w odniesieniu do jednego lub więcej wysokiej jakości tłumaczeń referencyjnych. Mierzy ona podobieństwo tekstu wygenerowanego maszynowo do jednego lub więcej tekstów referencyjnych wygenerowanych przez człowieka.

BLEU działa poprzez porównywanie n-gramów (sekwencji n kolejnych słów) między wygenerowanym tekstem a tekstami referencyjnymi. Oblicza precyzję, biorąc pod uwagę, ile n-gramów w wygenerowanym tekście pasuje do tych w tekście referencyjnym (tekstach referencyjnych). Wynik precyzji jest następnie modyfikowany przez karę za zwięzłość, aby uniknąć faworyzowania krótszych tłumaczeń.

Wiadomo, że wynik BLEU dobrze koreluje z ludzką oceną jakości tłumaczenia.

Wzór na obliczanie wyniku BLEU obejmuje precyzję i karę za zwięzłość. Oto uproszczona wersja tego wzoru:

Gdzie

  • BP to kara za zwięzłość, która uwzględnia długość wygenerowanego tekstu w porównaniu z tekstem referencyjnym.

  • n to maksymalna rozważana kolejność n-gramów (zwykle 4).

  • P_i to precyzja i-gramu między wygenerowanym tekstem a tekstem referencyjnym (tekstami referencyjnymi).

Precyzja p_i dla każdego i-gramu jest obliczana przez podzielenie liczby pasujących i-gramów w wygenerowanym tekście przez całkowitą liczbę i-gramów w wygenerowanym tekście. Ta wartość precyzji jest mnożona razem dla wszystkich kolejności i-gramów, a następnie podnoszona do potęgi odwrotności n (maksymalna kolejność n-gramów).

Kara za zwięzłość (BP) karze krótsze tłumaczenia poprzez porównanie długości wygenerowanego tekstu z najbliższym tekstem referencyjnym pod względem długości. Jest ona obliczana jako:

Gdzie

  • c to długość wygenerowanego tekstu

  • r to długość najbliższego tekstu referencyjnego

Kara ta zapobiega nieproporcjonalnie wysokim ocenom zbyt krótkich tłumaczeń.

Należy pamiętać, że jest to uproszczone wyjaśnienie formuły wyniku BLEU. Rzeczywiste obliczenia mogą obejmować dodatkowe techniki wygładzania lub modyfikacje dla określonych odmian BLEU stosowanych w różnych kontekstach.

Interpretacja

Wynik BLEU waha się od 0 do 1, gdzie 1 oznacza idealne dopasowanie wygenerowanego tekstu do tekstu referencyjnego. Wyższe wyniki BLEU ogólnie sugerują lepszą jakość tłumaczenia, ale ważne jest, aby wziąć pod uwagę jego ograniczenia, takie jak brak uwzględnienia znaczenia semantycznego lub płynności.

Wynik BLEU nie jest miarą bezwzględną, a porównywanie wyników BLEU między fragmentami, językami, a nawet w tym samym języku z różną liczbą tłumaczeń referencyjnych (im więcej tłumaczeń, tym większe prawdopodobieństwo dopasowania kandydujących n-gramów) nie jest dokładne.

The following interpretation, however, can be used to get a rough idea of quality of the translations:

BLEUInterpretacja
﹤0.1Prawie bezużyteczny
0.1-0.19Trudno zrozumieć sedno
0.2-0.29Treść jest jasna, ale zawiera znaczące błędy gramatyczne
0.3-0.39Zrozumiałe dla dobrych tłumaczeń
0.4-0.49Wysokiej jakości tłumaczenia
0.5-0.59Bardzo wysokiej jakości, adekwatne i płynne tłumaczenia
≥0.6Jakość często lepsza niż u ludzi

Warto zauważyć, że BLEU jest tylko jednym z kilku wskaźników używanych do oceny tłumaczenia maszynowego i generowania tekstu, i często jest używany wraz z innymi metodami oceny w celu bardziej kompleksowej oceny wydajności modelu.


Career Services background pattern

Usługi związane z karierą

Contact Section background image

Pozostańmy w kontakcie

Code Labs Academy © 2024 Wszelkie prawa zastrzeżone.