Forstå BLEU-score i NLP: Evaluering av oversettelseskvalitet

Oppdatert den September 03, 2024 Lesetid: 3 minutter

Definisjon

BLEU (BiLingual Evaluation Uunderstudy), er en beregning som brukes i naturlig språkbehandling (NLP) og maskinoversettelse for å evaluere kvaliteten på generert tekst opp mot en eller flere referanseoversettelser av høy kvalitet. Den måler hvor lik en maskingenerert tekst er til en eller flere menneskeskapte referansetekster.

BLEU fungerer ved å sammenligne n-gram (sekvenser av n påfølgende ord) mellom den genererte teksten og referansetekstene. Den beregner presisjon, med tanke på hvor mange n-gram i den genererte teksten som samsvarer med de i referanseteksten(e). Presisjonspoengsummen modifiseres deretter med en korthetsstraff for å unngå å favorisere kortere oversettelser.

BLEU-poengsummen er kjent for å korrelere godt med menneskelig vurdering av oversettelseskvalitet.

Formelen for å beregne BLEU-poengsummen innebærer presisjon og en korthetsstraff. Her er en forenklet versjon av formelen:

Hvor

BP er korthetsstraffen for å ta hensyn til lengden på den genererte teksten sammenlignet med referanseteksten(e).
n er den maksimale n-gram rekkefølgen som vurderes (vanligvis 4).
P_i er presisjonen til i-grammet mellom den genererte teksten og referanseteksten(e).

Presisjonen p_i for hvert i-gram beregnes ved å dele antall matchende i-gram i den genererte teksten med det totale antallet i-gram i den genererte teksten. Denne presisjonsverdien multipliseres sammen for alle i-gram-ordrer og heves deretter til potensen av den resiproke av n (maksimal n-gram-rekkefølge).

Korthetsstraffen (BP) straffer kortere oversettelser ved å sammenligne lengden på den genererte teksten med den nærmeste referanseteksten når det gjelder lengde. Det er beregnet som:

Hvor

c er lengden på den genererte teksten
r er lengden på den nærmeste referanseteksten

Denne straffen forhindrer at for korte oversettelser får uforholdsmessig høye poengsummer.

Husk at dette er en forenklet forklaring av BLEU-scoreformelen. Selve beregningen kan innebære ytterligere utjevningsteknikker eller modifikasjoner for spesifikke variasjoner av BLEU brukt i forskjellige sammenhenger.

Tolkning

BLEU-poengsummen varierer fra 0 til 1, der 1 indikerer en perfekt match mellom den genererte teksten og referanseteksten(e). Høyere BLEU-score antyder generelt bedre oversettelseskvalitet, men det er viktig å vurdere begrensningene, for eksempel å ikke ta hensyn til semantisk betydning eller flyt.

BLEU-poengsummen er ikke et absolutt mål, og å sammenligne BLEU-poengsum mellom passasjer, språk eller til og med på samme språk med forskjellig antall referanseoversettelser (jo flere oversettelser, jo mer sannsynlig er det å matche kandidatens n-gram) er ikke nøyaktig.

Følgende tolkning kan imidlertid brukes til å få en grov idé av kvaliteten på oversettelsene:

BLEU Tolkning ﹤0,1 Nesten ubrukelig 0,1–0,19 Vanskelig å forstå hovedsaken 0,2-0,29 Kjernen er klar, men har betydelige grammatiske feil 0,3–0,39 Forståelige til gode oversettelser 0,4–0,49 Oversettelser av høy kvalitet 0,5–0,59 Svært høy kvalitet, tilstrekkelige og flytende oversettelser ≥0,6 Kvalitet ofte bedre enn mennesker

Det er verdt å merke seg at BLEU bare er en av flere beregninger som brukes til å evaluere maskinoversettelse og tekstgenerering, og den brukes ofte sammen med andre evalueringsmetoder for en mer omfattende vurdering av modellens ytelse.