Definícia
BLEU (BiLingual Evaluation Uunderstudy) je metrika používaná pri spracovaní prirodzeného jazyka (NLP) a strojovom preklade na hodnotenie kvality generovaného textu oproti jeden alebo viac kvalitných referenčných prekladov. Meria, do akej miery je strojom vytvorený text podobný jednému alebo viacerým referenčným textom vytvoreným človekom.
BLEU funguje tak, že porovnáva n-gramy (sekvencie n po sebe idúcich slov) medzi vygenerovaným textom a referenčnými textami. Vypočítava presnosť, berúc do úvahy, koľko n-gramov vo vygenerovanom texte sa zhoduje s tými v referenčnom texte (textoch). Skóre presnosti sa potom upraví penalizáciou za stručnosť, aby sa zabránilo uprednostňovaniu kratších prekladov.
Je známe, že skóre BLEU dobre koreluje s ľudským úsudkom o kvalite prekladu.
Vzorec na výpočet skóre BLEU zahŕňa presnosť a penalizáciu za stručnosť. Tu je zjednodušená verzia vzorca:
Kde
-
BP je penalizácia za stručnosť, ktorá zohľadňuje dĺžku generovaného textu v porovnaní s referenčným textom (textami).
-
n je maximálne uvažované n-gramové poradie (zvyčajne 4).
-
P_i je presnosť i-gramu medzi vygenerovaným textom a referenčným textom (textami).
Presnosť p_i pre každý i-gram sa vypočíta vydelením počtu zhodných i-gramov vo vygenerovanom texte celkovým počtom i-gramov vo vygenerovanom texte. Táto hodnota presnosti sa vynásobí spolu pre všetky rády i-gramov a potom sa zvýši na mocninu prevrátenej hodnoty n (maximálny rád n-gramov).
Penalizácia za stručnosť (BP) penalizuje kratšie preklady porovnaním dĺžky generovaného textu s najbližším referenčným textom z hľadiska dĺžky. Počíta sa ako:
Kde
-
c je dĺžka vygenerovaného textu
-
r je dĺžka najbližšieho referenčného textu
Táto penalizácia zabraňuje tomu, aby príliš krátke preklady získali neprimerane vysoké skóre.
Majte na pamäti, že toto je zjednodušené vysvetlenie vzorca skóre BLEU. Skutočný výpočet môže zahŕňať dodatočné techniky vyhladzovania alebo modifikácie pre špecifické variácie BLEU používané v rôznych kontextoch.
Výklad
Skóre BLEU sa pohybuje od 0 do 1, pričom 1 označuje dokonalú zhodu medzi vygenerovaným textom a referenčným textom (textami). Vyššie skóre BLEU vo všeobecnosti naznačuje lepšiu kvalitu prekladu, ale je nevyhnutné zvážiť jej obmedzenia, ako napríklad nezohľadňovanie sémantického významu alebo plynulosti.
Skóre BLEU nie je absolútnym meradlom a porovnávanie skóre BLEU medzi pasážami, jazykmi alebo dokonca v tom istom jazyku s rôznym počtom referenčných prekladov (čím viac prekladov, tým väčšia je pravdepodobnosť zhody s kandidátskymi n-gramami) nie je presné.
Nasledovný výklad však možno použiť na získanie približného nápadu kvality prekladov:
<tabuľka>
BLEU Interpretácia ﹤0,1 Takmer zbytočné 0,1 – 0,19 Ťažko pochopiť podstatu 0,2 – 0,29 Podstata je jasná, ale obsahuje značné gramatické chyby 0,3 – 0,39 Zrozumiteľné až po dobré preklady 0,4 – 0,49 Preklady vysokej kvality 0,5 – 0,59 Veľmi kvalitné, primerané a plynulé preklady ≥0,6 Kvalita je často lepšia ako u ľudíStojí za zmienku, že BLEU je len jednou z niekoľkých metrík používaných na hodnotenie strojového prekladu a generovania textu a často sa používa spolu s inými metódami hodnotenia na komplexnejšie hodnotenie výkonnosti modelu.