Definicija
BLEU (BiLlingual Evaluation Understudy) je metrika, ki se uporablja pri obdelavi naravnega jezika (NLP) in strojnem prevajanju za oceno kakovosti ustvarjenega besedila glede na enega ali več visokokakovostnih referenčnih prevodov. Meri, kako podobno je strojno ustvarjeno besedilo enemu ali več referenčnim besedilom, ki jih je ustvaril človek.
BLEU deluje tako, da primerja n-grame (zaporedja n zaporednih besed) med ustvarjenim besedilom in referenčnimi besedili. Izračuna natančnost, pri čemer upošteva, koliko n-gramov v ustvarjenem besedilu se ujema s tistimi v referenčnih besedilih. Ocena natančnosti se nato spremeni s kaznijo za kratkost, da se prepreči dajanje prednosti krajšim prevodom.
Znano je, da se ocena BLEU dobro ujema s človeško presojo kakovosti prevoda.
Formula za izračun ocene BLEU vključuje natančnost in kazen za kratkost. Tukaj je poenostavljena različica formule:
Kje
-
BP je kazen za kratkost, ki upošteva dolžino ustvarjenega besedila v primerjavi z referenčnim besedilom(-i).
-
n je največji upoštevani n-gramski vrstni red (običajno 4).
-
P_i je natančnost i-grama med ustvarjenim besedilom in referenčnim besedilom(-i).
Natančnost p_i za vsak i-gram se izračuna tako, da se število ujemajočih se i-gramov v ustvarjenem besedilu deli s skupnim številom i-gramov v ustvarjenem besedilu. Ta vrednost natančnosti se pomnoži za vse vrstne rede i-gramov in nato poviša na potenco recipročne vrednosti n (največji vrstni red n-gramov).
Kazen za kratkost (BP) kaznuje krajše prevode s primerjavo dolžine ustvarjenega besedila z najbližjim referenčnim besedilom glede na dolžino. Izračuna se kot:
Kje
-
c je dolžina generiranega besedila
-
r je dolžina najbližjega referenčnega besedila
Ta kazen preprečuje, da bi prekratki prevodi prejeli nesorazmerno visoke ocene.
Upoštevajte, da je to poenostavljena razlaga formule za oceno BLEU. Dejanski izračun lahko vključuje dodatne tehnike glajenja ali modifikacije za posebne različice BLEU, ki se uporabljajo v različnih kontekstih.
Tolmačenje
Ocena BLEU se giblje od 0 do 1, kjer 1 označuje popolno ujemanje med ustvarjenim besedilom in referenčnim besedilom. Višji rezultati BLEU na splošno kažejo na boljšo kakovost prevoda, vendar je bistveno upoštevati njegove omejitve, kot je neupoštevanje semantičnega pomena ali tekočnosti.
Rezultat BLEU ni absolutno merilo in primerjava rezultatov BLEU med odlomki, jeziki ali celo v istem jeziku z različnim številom referenčnih prevodov (več kot je prevodov, večja je verjetnost ujemanja s kandidatnimi n-grami) ni natančno.
Naslednjo interpretacijo pa lahko uporabite, da dobite grobo predstavo kakovosti prevodov:
Treba je omeniti, da je BLEU le ena od več metrik, ki se uporabljajo za ocenjevanje strojnega prevajanja in generiranja besedila, in se pogosto uporablja skupaj z drugimi metodami ocenjevanja za celovitejšo oceno uspešnosti modela.