Forståelse af BLEU-score i NLP: Evaluering af oversættelseskvalitet

BLEU Score
Naturlig sprogbehandling
Maskinoversættelsesevaluering

Opdateret på September 03, 20244 Minutter læst

Forståelse af BLEU-score i NLP: Evaluering af oversættelseskvalitet cover image

Definition

BLEU (BiLsproget Evaluering Uunderstudy), er en metrik, der bruges i naturlig sprogbehandling (NLP) og maskinoversættelse til at evaluere kvaliteten af ​​genereret tekst i forhold til en eller flere referenceoversættelser af høj kvalitet. Den måler, hvor meget en maskingenereret tekst ligner en eller flere menneskeskabte referencetekster.

BLEU fungerer ved at sammenligne n-gram (sekvenser af n på hinanden følgende ord) mellem den genererede tekst og referenceteksterne. Den beregner præcision i betragtning af, hvor mange n-gram i den genererede tekst, der matcher dem i referenceteksten(erne). Præcisionsresultatet modificeres derefter med en korthedsstraf for at undgå at favorisere kortere oversættelser.

BLEU-score er kendt for at korrelere godt med menneskelig vurdering af oversættelseskvalitet.

Formlen til beregning af BLEU-scoren involverer præcision og en korthedsstraf. Her er en forenklet version af formlen:

Hvor

  • BP er korthedsstraffen for at tage højde for længden af ​​den genererede tekst sammenlignet med referenceteksten(erne).

  • n er den maksimale n-gram rækkefølge, der tages i betragtning (normalt 4).

  • P_i er præcisionen af ​​i-grammet mellem den genererede tekst og referenceteksten(e).

Præcisionen p_i for hvert i-gram beregnes ved at dividere antallet af matchende i-gram i den genererede tekst med det samlede antal i-gram i den genererede tekst. Denne præcisionsværdi multipliceres sammen for alle i-gram ordrer og hæves derefter til potensen af ​​den reciproke af n (den maksimale n-gram rækkefølge).

Korthedsstraffen (BP) straffer kortere oversættelser ved at sammenligne længden af ​​den genererede tekst med den nærmeste referencetekst med hensyn til længde. Det er beregnet som:

Hvor

  • c er længden af ​​den genererede tekst

  • r er længden af ​​den nærmeste referencetekst

Denne straf forhindrer alt for korte oversættelser i at få uforholdsmæssigt høje scores.

Husk, at dette er en forenklet forklaring af BLEU-scoreformlen. Den faktiske beregning kan involvere yderligere udjævningsteknikker eller modifikationer for specifikke variationer af BLEU brugt i forskellige sammenhænge.

Fortolkning

BLEU-scoren går fra 0 til 1, hvor 1 angiver et perfekt match mellem den genererede tekst og referenceteksten/-erne. Højere BLEU-score tyder generelt på bedre oversættelseskvalitet, men det er vigtigt at overveje dets begrænsninger, såsom ikke at tage højde for semantisk betydning eller flydende.

BLEU-scoren er ikke et absolut mål, og sammenligning af BLEU-scorer mellem passager, sprog eller endda på det samme sprog med forskellige antal referenceoversættelser (jo flere oversættelser, jo mere sandsynligt er det at matche kandidatens n-gram) er ikke nøjagtig.

Den følgende fortolkning kan dog bruges til at få en grov idé af kvaliteten af ​​oversættelserne:

BLEU Fortolkning ﹤0,1 Næsten ubrugelig 0,1-0,19 Svært at forstå essensen 0,2-0,29 Sammensætningen er klar, men har betydelige grammatiske fejl 0,3-0,39 Forståelige til gode oversættelser 0,4-0,49 Oversættelser af høj kvalitet 0,5-0,59 Meget høj kvalitet, passende og flydende oversættelser ≥0,6 Kvalitet er ofte bedre end mennesker

Det er værd at bemærke, at BLEU kun er en af ​​flere målinger, der bruges til at evaluere maskinoversættelse og tekstgenerering, og den bruges ofte sammen med andre evalueringsmetoder til en mere omfattende vurdering af modellens ydeevne.

Overvej en teknisk karriere - lær mere om CLAs online bootcamps

Career Services background pattern

Karriereservice

Contact Section background image

Lad os holde kontakten

Code Labs Academy © 2025 Alle rettigheder forbeholdes.