Apibrėžimas
BLEU (BiLlingual Evaluation Understudy) yra natūralios kalbos apdorojimo (NLP) ir mašininio vertimo metrika, skirta įvertinti sukurto teksto kokybę. vienas ar daugiau aukštos kokybės informacinių vertimų. Jis matuoja, kiek mašinos sukurtas tekstas yra panašus į vieną ar kelis žmogaus sukurtus informacinius tekstus.
BLEU veikia lygindama n-gramus (n iš eilės einančių žodžių sekas) tarp sukurto teksto ir nuorodos tekstų. Jis apskaičiuoja tikslumą, atsižvelgdamas į tai, kiek n-gramų sukurtame tekste atitinka esančius nuorodos tekste (-iuose). Tada tikslumo balas pakeičiamas trumpumu, kad būtų išvengta trumpesnių vertimų.
Žinoma, kad BLEU balas gerai koreliuoja su žmogaus vertinimu dėl vertimo kokybės.
BLEU balo apskaičiavimo formulė apima tikslumą ir trumpumą. Štai supaprastinta formulės versija:
Kur
-
BP yra trumpumo nuobauda, skirta atsižvelgti į sugeneruoto teksto ilgį, palyginti su nuorodos tekstu (-ais).
-
n yra didžiausia n-gramų tvarka (dažniausiai 4).
-
P_i yra i-gramos tikslumas tarp sugeneruoto teksto ir nuorodos teksto (-ų).
Tikslumas p_i kiekvienam i-gramui apskaičiuojamas padalijus sugeneruoto teksto atitinkančių i-gramų skaičių iš bendro i-gramų skaičiaus sugeneruotame tekste. Ši tikslumo reikšmė padauginama iš visų i-gramų eilučių ir padidinama iki n grįžtamojo laipsnio (didžiausia n-gramų tvarka).
Trumpumo nuobauda (BP) baudžiama už trumpesnius vertimus, lyginant sugeneruoto teksto ilgį su artimiausiu ilgio nuorodos tekstu. Jis apskaičiuojamas taip:
Kur
-
c yra sugeneruoto teksto ilgis
-
r yra artimiausio nuorodos teksto ilgis
Ši nuobauda neleidžia per trumpiems vertimams gauti neproporcingai aukštų balų.
Atminkite, kad tai yra supaprastintas BLEU balo formulės paaiškinimas. Tikrasis skaičiavimas gali apimti papildomus išlyginimo būdus arba modifikacijas tam tikriems BLEU variantams, naudojamiems skirtinguose kontekstuose.
Aiškinimas
BLEU balas svyruoja nuo 0 iki 1, kur 1 rodo tobulą sugeneruoto teksto ir nuorodos teksto (-ų) atitikimą. Aukštesni BLEU balai paprastai rodo geresnę vertimo kokybę, tačiau būtina atsižvelgti į jo apribojimus, pvz., neatsižvelgti į semantinę reikšmę ar sklandumą.
BLEU balas nėra absoliutus matas, o BLEU balų palyginimas tarp ištraukų, kalbų ar net ta pačia kalba su skirtingu nuorodų vertimų skaičiumi (kuo daugiau vertimų, tuo didesnė tikimybė, kad jie atitiks kandidato n-gramus) nėra tikslus.
Tačiau aiškinimas gali būti naudojamas norint gauti apytikslę idėją dėl vertimų kokybės:
<lentelė>
BLEU Aiškinimas ﹤0,1 Beveik nenaudingas 0,1–0,19 Sunku suprasti esmę 0,2–0,29 Esmė aiški, tačiau yra didelių gramatinių klaidų 0,3–0,39 Suprantama iki gerų vertimų 0,4–0,49 Aukštos kokybės vertimai 0,5–0,59 Labai kokybiški, tinkami ir sklandūs vertimai ≥0,6 Kokybė dažnai geresnė nei žmoniųVerta paminėti, kad BLEU yra tik viena iš kelių metrikų, naudojamų vertinant mašininį vertimą ir teksto generavimą, ir ji dažnai naudojama kartu su kitais vertinimo metodais siekiant visapusiškesnio modelio veikimo įvertinimo.