BLEU-score begrijpen in NLP: vertaalkwaliteit evalueren

BLEU-score
Natuurlijke taalverwerking
Machinevertaling evaluatie
BLEU-score begrijpen in NLP: vertaalkwaliteit evalueren cover image

Definitie

BLEU (BiLingual Evaluation Understudy), is een metriek die wordt gebruikt in natuurlijke taalverwerking (NLP) en automatische vertaling om de kwaliteit van gegenereerde tekst te evalueren ten opzichte van een of meer hoogwaardige referentievertalingen. Het meet hoe vergelijkbaar een machinaal gegenereerde tekst is met een of meer door mensen gegenereerde referentieteksten.

BLEU vergelijkt n-grammen (reeksen van n opeenvolgende woorden) tussen de gegenereerde tekst en de referentieteksten. De precisie wordt berekend door te kijken hoeveel n-grammen in de gegenereerde tekst overeenkomen met die in de referentietekst(en). De precisiescore wordt vervolgens aangepast met een kortheidsscore om te voorkomen dat kortere vertalingen worden bevoordeeld.

Het is bekend dat de BLEU-score goed correleert met het menselijke oordeel over de vertaalkwaliteit.

De formule voor het berekenen van de BLEU-score heeft te maken met precisie en beknoptheid. Hier is een vereenvoudigde versie van de formule:

(https://d3vdhmy3teu986.cloudfront.net/strapi/unnamed_1e0f6324e0.png)

Waar

  • BP is de beknoptheidspenalty om rekening te houden met de lengte van de gegenereerde tekst vergeleken met de referentietekst(en).

  • n is de maximale n-gram volgorde (meestal 4).

  • P_i is de precisie van het i-gram tussen de gegenereerde tekst en de referentietekst(en).

De precisie p_i voor elk i-gram wordt berekend door het aantal overeenkomende i-grammen in de gegenereerde tekst te delen door het totale aantal i-grammen in de gegenereerde tekst. Deze precisiewaarde wordt voor alle i-gramvolgordes met elkaar vermenigvuldigd en vervolgens verheven tot de macht van de reciproke van n (de maximale n-gramvolgorde).

De beknoptheidspenalty (BP) bestraft kortere vertalingen door de lengte van de gegenereerde tekst te vergelijken met de referentietekst die qua lengte het dichtst in de buurt komt. Deze wordt als volgt berekend:

(https://d3vdhmy3teu986.cloudfront.net/strapi/unnamed_1_a712ff030d.png)

Waar

  • c is de lengte van de gegenereerde tekst

  • r is de lengte van de dichtstbijzijnde referentietekst

Deze straf voorkomt dat te korte vertalingen onevenredig hoge scores krijgen.

Houd er rekening mee dat dit een vereenvoudigde uitleg is van de BLEU-scoreformule. De werkelijke berekening kan extra afvlakkingstechnieken of aanpassingen voor specifieke variaties van BLEU vereisen die in verschillende contexten worden gebruikt.

Interpretatie

De BLEU-score gaat van 0 tot 1, waarbij 1 staat voor een perfecte overeenkomst tussen de gegenereerde tekst en de referentietekst(en). Hogere BLEU-scores wijzen over het algemeen op een betere vertaalkwaliteit, maar het is essentieel om rekening te houden met de beperkingen, zoals het niet in rekening brengen van semantische betekenis of vloeiendheid.

De BLEU-score is geen absolute maatstaf en het vergelijken van BLEU-scores tussen passages, talen of zelfs in dezelfde taal met verschillende aantallen referentievertalingen (hoe meer vertalingen, hoe waarschijnlijker dat ze overeenkomen met de kandidaat-n-grammen) is niet nauwkeurig.

The following interpretation, however, can be used to get a rough idea of quality of the translations:

BLEUInterpretatie
﹤0.1Bijna nutteloos
0.1-0.19Moeilijk om de essentie te begrijpen
0.2-0.29De essentie is duidelijk, maar bevat aanzienlijke grammaticale fouten
0.3-0.39Begrijpelijk tot goede vertalingen
0.4-0.49Vertalingen van hoge kwaliteit
0.5-0.59Zeer goede, adequate en vloeiende vertalingen
≥0.6Kwaliteit vaak beter dan mensen

Het is de moeite waard om op te merken dat BLEU slechts een van de vele metrieken is die worden gebruikt om automatische vertaling en tekstgeneratie te evalueren, en het wordt vaak gebruikt naast andere evaluatiemethoden voor een uitgebreidere beoordeling van de prestaties van het model.


Career Services background pattern

Carrièrediensten

Contact Section background image

Laten we in contact blijven

Code Labs Academy © 2024 Alle rechten voorbehouden.