De BLEU-score in NLP begrijpen: de vertaalkwaliteit evalueren

Bijgewerkt op September 03, 2024 3 Minuten lezen

De BLEU-score in NLP begrijpen: de vertaalkwaliteit evalueren cover image

Definitie

BLEU (BiLingual Evaluation Understudy), is een metriek die wordt gebruikt in natuurlijke taalverwerking (NLP) en automatische vertaling om de kwaliteit van gegenereerde tekst te evalueren aan de hand van een of meer referentievertalingen van hoge kwaliteit. Het meet hoe vergelijkbaar een door een machine gegenereerde tekst is met een of meer door mensen gegenereerde referentieteksten.

BLEU werkt door het vergelijken van n-grammen (reeksen van n opeenvolgende woorden) tussen de gegenereerde tekst en de referentieteksten. Het berekent de nauwkeurigheid, rekening houdend met hoeveel n-grammen in de gegenereerde tekst overeenkomen met die in de referentietekst(en). De precisiescore wordt vervolgens aangepast met een beknoptheidsboete om te voorkomen dat kortere vertalingen worden bevoordeeld.

Het is bekend dat de BLEU-score goed correleert met het menselijk oordeel over de vertaalkwaliteit.

De formule voor het berekenen van de BLEU-score omvat precisie en een boete voor beknoptheid. Hier is een vereenvoudigde versie van de formule:

Waar

  • BP is de kortheidsboete om rekening te houden met de lengte van de gegenereerde tekst in vergelijking met de referentietekst(en).

  • n is de maximale beschouwde n-gram-volgorde (meestal 4).

  • P_i is de precisie van het i-gram tussen de gegenereerde tekst en de referentietekst(en).

De precisie p_i voor elk i-gram wordt berekend door het aantal overeenkomende i-grammen in de gegenereerde tekst te delen door het totale aantal i-grammen in de gegenereerde tekst. Deze precisiewaarde wordt voor alle i-gram-ordes met elkaar vermenigvuldigd en vervolgens verhoogd tot de macht van het omgekeerde van n (de maximale n-gram-orde).

De beknoptheidsstraf (BP) bestraft kortere vertalingen door de lengte van de gegenereerde tekst te vergelijken met de dichtstbijzijnde referentietekst in termen van lengte. Het wordt berekend als:

Waar

  • c is de lengte van de gegenereerde tekst

  • r is de lengte van de dichtstbijzijnde referentietekst

Deze boete voorkomt dat te korte vertalingen onevenredig hoge scores krijgen.

Houd er rekening mee dat dit een vereenvoudigde uitleg is van de BLEU-scoreformule. De daadwerkelijke berekening kan aanvullende afvlakkingstechnieken of aanpassingen met zich meebrengen voor specifieke variaties van BLEU die in verschillende contexten worden gebruikt.

Interpretatie

De BLEU-score loopt van 0 tot 1, waarbij 1 een perfecte match aangeeft tussen de gegenereerde tekst en de referentietekst(en). Hogere BLEU-scores suggereren over het algemeen een betere vertaalkwaliteit, maar het is essentieel om rekening te houden met de beperkingen ervan, zoals het niet verklaren van semantische betekenis of vloeiendheid.

De BLEU-score is geen absolute maatstaf, en het vergelijken van BLEU-scores tussen passages, talen of zelfs in dezelfde taal met verschillende aantallen referentievertalingen (hoe meer vertalingen, hoe groter de kans dat ze overeenkomen met de kandidaat-n-grammen) is niet nauwkeurig.

De volgende interpretatie kan echter worden gebruikt om een ​​[ruw idee] te krijgen(https://www.cs.cmu. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf) over de kwaliteit van de vertalingen:

BLEU Interpretatie ﹤0,1 Bijna nutteloos 0,1-0,19 Moeilijk om de essentie te begrijpen 0,2-0,29 De essentie is duidelijk, maar bevat aanzienlijke grammaticale fouten 0,3-0,39 Begrijpelijk tot goede vertalingen 0,4-0,49 Vertalingen van hoge kwaliteit 0,5-0,59 Zeer hoogwaardige, adequate en vloeiende vertalingen ≥0,6 Kwaliteit vaak beter dan mensen

Het is vermeldenswaard dat BLEU slechts een van de vele meetgegevens is die worden gebruikt om automatische vertaling en tekstgeneratie te evalueren, en dat deze vaak naast andere evaluatiemethoden wordt gebruikt voor een uitgebreidere beoordeling van de modelprestaties.