Definīcija
BLEU (BiLlingual Evaluation Understudy) ir metrika, ko izmanto dabiskās valodas apstrādē (NLP) un mašīntulkošanā, lai novērtētu ģenerētā teksta kvalitāti. viens vai vairāki augstas kvalitātes atsauces tulkojumi. Tas mēra, cik līdzīgs mašīnas ģenerēts teksts ir vienam vai vairākiem cilvēka ģenerētiem atsauces tekstiem.
BLEU darbojas, salīdzinot n-gramus (n secīgu vārdu secības) starp ģenerēto tekstu un atsauces tekstiem. Tas aprēķina precizitāti, ņemot vērā, cik n-gramu ģenerētajā tekstā atbilst atsauces tekstā(-os). Pēc tam precizitātes rezultāts tiek mainīts ar īsuma sodu, lai izvairītos no īsākiem tulkojumiem.
Ir zināms, ka BLEU rādītājs labi korelē ar cilvēka spriedumu par tulkojuma kvalitāti.
BLEU rezultāta aprēķināšanas formula ietver precizitāti un īsuma sodu. Šeit ir vienkāršota formulas versija:
Kur
-
BP ir īsuma sods, lai ņemtu vērā ģenerētā teksta garumu salīdzinājumā ar atsauces tekstu(-iem).
-
n ir maksimālā n-gramu secība (parasti 4).
-
P_i ir i-grammas precizitāte starp ģenerēto tekstu un atsauces tekstu(-iem).
Precizitāte p_i katram i-gramam tiek aprēķināta, dalot atbilstošo i-gramu skaitu ģenerētajā tekstā ar kopējo i-gramu skaitu ģenerētajā tekstā. Šī precizitātes vērtība tiek reizināta ar visiem i-gramu secībām un pēc tam tiek palielināta līdz n apgrieztā skaitļa pakāpei (maksimālā n-gramu secība).
Īsuma sods (BP) nosaka sodu par īsākiem tulkojumiem, salīdzinot ģenerētā teksta garumu ar garuma ziņā tuvāko atsauces tekstu. To aprēķina šādi:
Kur
-
c ir ģenerētā teksta garums
-
r ir tuvākā atsauces teksta garums
Šis sods neļauj pārāk īsiem tulkojumiem iegūt nesamērīgi augstus punktus.
Ņemiet vērā, ka šis ir vienkāršots BLEU punktu formulas skaidrojums. Faktiskais aprēķins var ietvert papildu izlīdzināšanas metodes vai modifikācijas īpašām BLEU variācijām, ko izmanto dažādos kontekstos.
Interpretācija
BLEU rādītājs svārstās no 0 līdz 1, kur 1 norāda ideālu atbilstību starp ģenerēto tekstu un atsauces tekstu(-iem). Augstāki BLEU rādītāji parasti liecina par labāku tulkojuma kvalitāti, taču ir svarīgi ņemt vērā tā ierobežojumus, piemēram, neņemt vērā semantisko nozīmi vai plūdumu.
BLEU rādītājs nav absolūts rādītājs, un BLEU rezultātu salīdzināšana starp fragmentiem, valodām vai pat vienā un tajā pašā valodā ar dažādu atsauces tulkojumu skaitu (jo vairāk tulkojumu, jo lielāka iespēja, ka tie atbilst kandidāta n-gramiem).
Tomēr šo interpretāciju var izmantot, lai iegūtu aptuvenu priekšstatu par tulkojumu kvalitāti:
Ir vērts atzīmēt, ka BLEU ir tikai viens no vairākiem rādītājiem, ko izmanto, lai novērtētu mašīntulkošanu un teksta ģenerēšanu, un to bieži izmanto kopā ar citām novērtēšanas metodēm, lai vispusīgāk novērtētu modeļa veiktspēju.