Definisie
BLEU (BiLtalige Ewaardering Uonderstudie), is 'n maatstaf wat in natuurlike taalverwerking (NLP) en masjienvertaling gebruik word om die kwaliteit van gegenereerde teks te evalueer een of meer verwysingsvertalings van hoë gehalte. Dit meet hoe soortgelyk 'n masjiengegenereerde teks is aan een of meer mensgegenereerde verwysingstekste.
BLEU werk deur n-gram (sekwensies van n opeenvolgende woorde) tussen die gegenereerde teks en die verwysingstekste te vergelyk. Dit bereken akkuraatheid, met inagneming van hoeveel n-gram in die gegenereerde teks ooreenstem met dié in die verwysingsteks(e). Die akkuraatheidtelling word dan gewysig deur 'n kortheidsstraf om te verhoed dat korter vertalings bevoordeel word.
Dit is bekend dat die BLEU-telling goed korreleer met menslike oordeel oor vertalingskwaliteit.
Die formule vir die berekening van die BLEU-telling behels akkuraatheid en 'n kortheidsstraf. Hier is 'n vereenvoudigde weergawe van die formule:
Waar
-
BP is die kortheidstraf om rekening te hou met die lengte van die gegenereerde teks in vergelyking met die verwysingsteks(e).
-
n is die maksimum n-gram volgorde wat oorweeg word (gewoonlik 4).
-
P_i is die akkuraatheid van die i-gram tussen die gegenereerde teks en die verwysingsteks(e).
Die presisie p_i vir elke i-gram word bereken deur die aantal ooreenstemmende i-gramme in die gegenereerde teks te deel deur die totale aantal i-gramme in die gegenereerde teks. Hierdie presisiewaarde word saam vermenigvuldig vir alle i-gram-ordes en dan verhoog tot die krag van die wederkerige van n (die maksimum n-gram-orde).
Die kortheidstraf (BP) penaliseer korter vertalings deur die lengte van die gegenereerde teks te vergelyk met die naaste verwysingsteks wat lengte betref. Dit word bereken as:
Waar
-
c is die lengte van die gegenereerde teks
-
r is die lengte van die naaste verwysingsteks
Hierdie straf verhoed dat te kort vertalings buitensporig hoë tellings kry.
Hou in gedagte dat dit 'n vereenvoudigde verduideliking van die BLEU-tellingformule is. Die werklike berekening kan addisionele gladmaaktegnieke of wysigings behels vir spesifieke variasies van BLEU wat in verskillende kontekste gebruik word.
Interpretasie
Die BLEU-telling wissel van 0 tot 1, waar 1 'n perfekte passing tussen die gegenereerde teks en die verwysingsteks(e) aandui. Hoër BLEU-tellings dui oor die algemeen beter vertaalkwaliteit aan, maar dit is noodsaaklik om die beperkings daarvan in ag te neem, soos om nie rekening te hou met semantiese betekenis of vlotheid nie.
Die BLEU-telling is nie 'n absolute maatstaf nie, en die vergelyking van BLEU-tellings tussen gedeeltes, tale, of selfs in dieselfde taal met verskillende getalle verwysingsvertalings (hoe meer vertalings, hoe meer geneig om by die kandidaat-n-gram te pas) is nie akkuraat nie.
Die volgende vertolking kan egter gebruik word om 'n [rowwe idee] te kry (https://www.cs.cmu. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf) van die kwaliteit van die vertalings:
Dit is opmerklik dat BLEU net een van verskeie maatstawwe is wat gebruik word om masjienvertaling en teksgenerering te evalueer, en dit word dikwels saam met ander evalueringsmetodes gebruik vir 'n meer omvattende assessering van modelprestasie.