Forståelse af BLEU-score i NLP: Evaluering af oversættelseskvalitet

BLEU Score
Naturlig sprogbehandling
Maskinoversættelsesevaluering
Forståelse af BLEU-score i NLP: Evaluering af oversættelseskvalitet cover image

Definition

BLEU (BiLsproget Evaluering Uunderstudy), er en metrik, der bruges i naturlig sprogbehandling (NLP) og maskinoversættelse til at evaluere kvaliteten af ​​genereret tekst i forhold til en eller flere referenceoversættelser af høj kvalitet. Den måler, hvor meget en maskingenereret tekst ligner en eller flere menneskeskabte referencetekster.

BLEU fungerer ved at sammenligne n-gram (sekvenser af n på hinanden følgende ord) mellem den genererede tekst og referenceteksterne. Den beregner præcision i betragtning af, hvor mange n-gram i den genererede tekst, der matcher dem i referenceteksten(erne). Præcisionsresultatet modificeres derefter med en korthedsstraf for at undgå at favorisere kortere oversættelser.

BLEU-score er kendt for at korrelere godt med menneskelig vurdering af oversættelseskvalitet.

Formlen til beregning af BLEU-scoren involverer præcision og en korthedsstraf. Her er en forenklet version af formlen:

Hvor

  • BP er korthedsstraffen for at tage højde for længden af ​​den genererede tekst sammenlignet med referenceteksten(erne).

  • n er den maksimale n-gram rækkefølge, der tages i betragtning (normalt 4).

  • P_i er præcisionen af ​​i-grammet mellem den genererede tekst og referenceteksten(e).

Præcisionen p_i for hvert i-gram beregnes ved at dividere antallet af matchende i-gram i den genererede tekst med det samlede antal i-gram i den genererede tekst. Denne præcisionsværdi multipliceres sammen for alle i-gram ordrer og hæves derefter til potensen af ​​den reciproke af n (den maksimale n-gram rækkefølge).

Korthedsstraffen (BP) straffer kortere oversættelser ved at sammenligne længden af ​​den genererede tekst med den nærmeste referencetekst med hensyn til længde. Det er beregnet som:

Hvor

  • c er længden af ​​den genererede tekst

  • r er længden af ​​den nærmeste referencetekst

Denne straf forhindrer alt for korte oversættelser i at få uforholdsmæssigt høje scores.

Husk, at dette er en forenklet forklaring af BLEU-scoreformlen. Den faktiske beregning kan involvere yderligere udjævningsteknikker eller modifikationer for specifikke variationer af BLEU brugt i forskellige sammenhænge.

Fortolkning

BLEU-scoren går fra 0 til 1, hvor 1 angiver et perfekt match mellem den genererede tekst og referenceteksten/-erne. Højere BLEU-score tyder generelt på bedre oversættelseskvalitet, men det er vigtigt at overveje dets begrænsninger, såsom ikke at tage højde for semantisk betydning eller flydende.

BLEU-scoren er ikke et absolut mål, og sammenligning af BLEU-scorer mellem passager, sprog eller endda på det samme sprog med forskellige antal referenceoversættelser (jo flere oversættelser, jo mere sandsynligt er det at matche kandidatens n-gram) er ikke nøjagtig.

Den følgende fortolkning kan dog bruges til at få en grov idé af kvaliteten af ​​oversættelserne:

BLEU Fortolkning ﹤0,1 Næsten ubrugelig 0,1-0,19 Svært at forstå essensen 0,2-0,29 Sammensætningen er klar, men har betydelige grammatiske fejl 0,3-0,39 Forståelige til gode oversættelser 0,4-0,49 Oversættelser af høj kvalitet 0,5-0,59 Meget høj kvalitet, passende og flydende oversættelser ≥0,6 Kvalitet er ofte bedre end mennesker

Det er værd at bemærke, at BLEU kun er en af ​​flere målinger, der bruges til at evaluere maskinoversættelse og tekstgenerering, og den bruges ofte sammen med andre evalueringsmetoder til en mere omfattende vurdering af modellens ydeevne.


Career Services background pattern

Karriereservice

Contact Section background image

Lad os holde kontakten

Code Labs Academy © 2024 Alle rettigheder forbeholdes.