Înțelegerea scorului BLEU în NLP: Evaluarea calității traducerii

Scor BLEU
procesarea limbajului natural
evaluarea traducerii automate
Înțelegerea scorului BLEU în NLP: Evaluarea calității traducerii cover image

Definiție

BLEU (BiLlingual Eevaluare Understudy), este o măsurătoare utilizată în procesarea limbajului natural (NLP) și traducerea automată pentru a evalua calitatea textului generat în raport cu una sau mai multe traduceri de referință de înaltă calitate. Măsoară cât de similar este un text generat de mașină cu unul sau mai multe texte de referință generate de oameni.

BLEU funcționează prin compararea n-gramelor (secvențe de n cuvinte consecutive) între textul generat și textele de referință. Calculează precizia, luând în considerare câte n-grame din textul generat se potrivesc cu cele din textul (textele) de referință. Scorul de precizie este apoi modificat printr-o penalizare de concizie pentru a evita favorizarea traducerilor mai scurte.

Se știe că scorul BLEU se corelează bine cu raționamentul uman asupra calității traducerii.

Formula de calcul a scorului BLEU implică precizie și o penalizare de concizie. Iată o versiune simplificată a formulei:

Unde

  • BP este penalizarea pentru concizie pentru a ține cont de lungimea textului generat în comparație cu textul (textele) de referință.

  • n este ordinul maxim de n grame considerat (de obicei 4).

  • P_i este precizia i-gramei dintre textul generat și textul (textele) de referință.

Precizia p_i pentru fiecare i-gramă este calculată prin împărțirea numărului de i-grame potrivite din textul generat la numărul total de i-grame din textul generat. Această valoare de precizie este înmulțită împreună pentru toate ordinele i-grame și apoi ridicată la puterea reciprocei lui n (ordinul maxim de n grame).

Penalizarea pentru concizie (BP) penalizează traducerile mai scurte prin compararea lungimii textului generat cu cel mai apropiat text de referință din punct de vedere al lungimii. Se calculeaza ca:

Unde

  • c este lungimea textului generat

  • r este lungimea celui mai apropiat text de referință

Această penalizare împiedică traducerile prea scurte să primească scoruri disproporționat de mari.

Rețineți că aceasta este o explicație simplificată a formulei scorului BLEU. Calculul propriu-zis ar putea implica tehnici suplimentare de netezire sau modificări pentru variații specifice ale BLEU utilizate în diferite contexte.

Interpretare

Scorul BLEU variază de la 0 la 1, unde 1 indică o potrivire perfectă între textul generat și textul (textele) de referință. Scorurile BLEU mai mari sugerează, în general, o calitate mai bună a traducerii, dar este esențial să luați în considerare limitările acesteia, cum ar fi neconsiderarea semnificației semantice sau fluenței.

Scorul BLEU nu este o măsură absolută, iar compararea scorurilor BLEU între pasaje, limbi sau chiar în aceeași limbă cu un număr diferit de traduceri de referință (cu cât mai multe traduceri, cu atât este mai probabil să se potrivească cu n-gramele candidate) nu este exactă.

Următoarea interpretare, totuși, poate fi folosită pentru a obține o idee generală de calitate a traducerilor:

BLEU Interpretare ﹤0,1 Aproape inutil 0,1-0,19 Greu de înțeles esențialul 0,2-0,29 Esanța este clară, dar are erori gramaticale semnificative 0,3-0,39 De la înțeles la traduceri bune 0,4-0,49 Traduceri de înaltă calitate 0,5-0,59 Traduceri de foarte bună calitate, adecvate și fluente ≥0,6 Calitate adesea mai bună decât oamenii

Este demn de remarcat faptul că BLEU este doar una dintre numeroasele valori folosite pentru a evalua traducerea automată și generarea de text și este adesea folosit alături de alte metode de evaluare pentru o evaluare mai cuprinzătoare a performanței modelului.


Career Services background pattern

Servicii de carieră

Contact Section background image

Să rămânem în legătură

Code Labs Academy © 2024 Toate drepturile rezervate.