Definice
BLEU (BiLingual Evaluation Understudy), je metrika používaná při zpracování přirozeného jazyka (NLP) a strojovém překladu k hodnocení kvality generovaného textu oproti jeden nebo více vysoce kvalitních referenčních překladů. Měří, nakolik je strojově generovaný text podobný jednomu nebo více lidem vytvořeným referenčním textům.
BLEU funguje tak, že porovnává n-gramy (sekvence n po sobě jdoucích slov) mezi vygenerovaným textem a referenčními texty. Vypočítá přesnost s ohledem na to, kolik n-gramů ve vygenerovaném textu odpovídá těm v referenčním textu (textech). Skóre přesnosti je poté upraveno penalizací za stručnost, aby se zabránilo upřednostňování kratších překladů.
Je známo, že skóre BLEU dobře koreluje s lidským úsudkem o kvalitě překladu.
Vzorec pro výpočet skóre BLEU zahrnuje přesnost a penalizaci za stručnost. Zde je zjednodušená verze vzorce:
Kde
-
BP je penalizace za stručnost, která zohledňuje délku generovaného textu ve srovnání s referenčním textem (texty).
-
n je maximální uvažovaný řád n gramů (obvykle 4).
-
P_i je přesnost i-gramu mezi vygenerovaným textem a referenčním textem (texty).
Přesnost p_i pro každý i-gram se vypočítá vydělením počtu odpovídajících i-gramů ve vygenerovaném textu celkovým počtem i-gramů ve vygenerovaném textu. Tato hodnota přesnosti se vynásobí společně pro všechny řády i-gramů a poté se zvýší na mocninu převrácené hodnoty n (maximální řád n-gramů).
Penalizace za stručnost (BP) penalizuje kratší překlady porovnáním délky generovaného textu s nejbližším referenčním textem, pokud jde o délku. Počítá se jako:
Kde
-
c je délka generovaného textu
-
r je délka nejbližšího referenčního textu
Tato penalizace zabraňuje tomu, aby příliš krátké překlady získaly nepřiměřeně vysoké skóre.
Mějte na paměti, že se jedná o zjednodušené vysvětlení vzorce skóre BLEU. Vlastní výpočet může zahrnovat další vyhlazovací techniky nebo modifikace pro specifické varianty BLEU používané v různých kontextech.
Výklad
Skóre BLEU se pohybuje od 0 do 1, kde 1 označuje dokonalou shodu mezi vygenerovaným textem a referenčním textem (texty). Vyšší skóre BLEU obecně naznačuje lepší kvalitu překladu, ale je nezbytné vzít v úvahu její omezení, jako je například nezohlednění sémantického významu nebo plynulosti.
Skóre BLEU není absolutním měřítkem a porovnávání skóre BLEU mezi pasážemi, jazyky nebo dokonce ve stejném jazyce s různým počtem referenčních překladů (čím více překladů, tím větší je pravděpodobnost shody s kandidátskými n-gramy) není přesné.
Následující výklad však lze použít k získání přibližné představy kvality překladů:
Stojí za zmínku, že BLEU je pouze jednou z několika metrik používaných k hodnocení strojového překladu a generování textu a často se používá spolu s dalšími metodami hodnocení pro komplexnější hodnocení výkonu modelu.