Izpratne par BLEU punktu skaitu NLP: tulkošanas kvalitātes novērtēšana

BLEU vērtējums
dabiskās valodas apstrāde
mašīntulkošanas novērtējums
Izpratne par BLEU punktu skaitu NLP: tulkošanas kvalitātes novērtēšana cover image

Definīcija

BLEU (BiLlingual Evaluation Understudy) ir metrika, ko izmanto dabiskās valodas apstrādē (NLP) un mašīntulkošanā, lai novērtētu ģenerētā teksta kvalitāti. viens vai vairāki augstas kvalitātes atsauces tulkojumi. Tas mēra, cik līdzīgs mašīnas ģenerēts teksts ir vienam vai vairākiem cilvēka ģenerētiem atsauces tekstiem.

BLEU darbojas, salīdzinot n-gramus (n secīgu vārdu secības) starp ģenerēto tekstu un atsauces tekstiem. Tas aprēķina precizitāti, ņemot vērā, cik n-gramu ģenerētajā tekstā atbilst atsauces tekstā(-os). Pēc tam precizitātes rezultāts tiek mainīts ar īsuma sodu, lai izvairītos no īsākiem tulkojumiem.

Ir zināms, ka BLEU rādītājs labi korelē ar cilvēka spriedumu par tulkojuma kvalitāti.

BLEU rezultāta aprēķināšanas formula ietver precizitāti un īsuma sodu. Šeit ir vienkāršota formulas versija:

Kur

  • BP ir īsuma sods, lai ņemtu vērā ģenerētā teksta garumu salīdzinājumā ar atsauces tekstu(-iem).

  • n ir maksimālā n-gramu secība (parasti 4).

  • P_i ir i-grammas precizitāte starp ģenerēto tekstu un atsauces tekstu(-iem).

Precizitāte p_i katram i-gramam tiek aprēķināta, dalot atbilstošo i-gramu skaitu ģenerētajā tekstā ar kopējo i-gramu skaitu ģenerētajā tekstā. Šī precizitātes vērtība tiek reizināta ar visiem i-gramu secībām un pēc tam tiek palielināta līdz n apgrieztā skaitļa pakāpei (maksimālā n-gramu secība).

Īsuma sods (BP) nosaka sodu par īsākiem tulkojumiem, salīdzinot ģenerētā teksta garumu ar garuma ziņā tuvāko atsauces tekstu. To aprēķina šādi:

Kur

  • c ir ģenerētā teksta garums

  • r ir tuvākā atsauces teksta garums

Šis sods neļauj pārāk īsiem tulkojumiem iegūt nesamērīgi augstus punktus.

Ņemiet vērā, ka šis ir vienkāršots BLEU punktu formulas skaidrojums. Faktiskais aprēķins var ietvert papildu izlīdzināšanas metodes vai modifikācijas īpašām BLEU variācijām, ko izmanto dažādos kontekstos.

Interpretācija

BLEU rādītājs svārstās no 0 līdz 1, kur 1 norāda ideālu atbilstību starp ģenerēto tekstu un atsauces tekstu(-iem). Augstāki BLEU rādītāji parasti liecina par labāku tulkojuma kvalitāti, taču ir svarīgi ņemt vērā tā ierobežojumus, piemēram, neņemt vērā semantisko nozīmi vai plūdumu.

BLEU rādītājs nav absolūts rādītājs, un BLEU rezultātu salīdzināšana starp fragmentiem, valodām vai pat vienā un tajā pašā valodā ar dažādu atsauces tulkojumu skaitu (jo vairāk tulkojumu, jo lielāka iespēja, ka tie atbilst kandidāta n-gramiem).

Tomēr šo interpretāciju var izmantot, lai iegūtu aptuvenu priekšstatu par tulkojumu kvalitāti:

BLEU Interpretācija ﹤0,1 Gandrīz bezjēdzīgi 0,1–0,19 Grūti saprast būtību 0,2–0,29 Pamatojums ir skaidrs, taču tajā ir būtiskas gramatikas kļūdas 0,3–0,39 Saprotams līdz labiem tulkojumiem 0,4–0,49 Augstas kvalitātes tulkojumi 0,5–0,59 Ļoti kvalitatīvi, atbilstoši un raiti tulkojumi ≥0,6 Kvalitāte bieži vien ir labāka nekā cilvēkiem

Ir vērts atzīmēt, ka BLEU ir tikai viens no vairākiem rādītājiem, ko izmanto, lai novērtētu mašīntulkošanu un teksta ģenerēšanu, un to bieži izmanto kopā ar citām novērtēšanas metodēm, lai vispusīgāk novērtētu modeļa veiktspēju.


Career Services background pattern

Karjeras pakalpojumi

Contact Section background image

Sazināsimies

Code Labs Academy © 2024 Visas tiesības paturētas.