Förstå BLEU-poäng i NLP: Utvärdera översättningskvalitet

BLEU-poäng
bearbetning av naturligt språk
utvärdering av maskinöversättning
Förstå BLEU-poäng i NLP: Utvärdera översättningskvalitet cover image

Definition

BLEU (BiLingual Evaluation Uunderstudy), är ett mått som används i naturlig språkbehandling (NLP) och maskinöversättning för att utvärdera kvaliteten på genererad text mot en eller flera referensöversättningar av hög kvalitet. Den mäter hur lik en maskingenererad text är en eller flera mänskligt genererade referenstexter.

BLEU fungerar genom att jämföra n-gram (sekvenser av n på varandra följande ord) mellan den genererade texten och referenstexterna. Den beräknar precision, med tanke på hur många n-gram i den genererade texten som matchar de i referenstexten/referenstexterna. Precisionspoängen modifieras sedan med en korthetsstraff för att undvika att gynna kortare översättningar.

BLEU-poängen är känd för att korrelera väl med mänskligt omdöme om översättningskvalitet.

Formeln för att beräkna BLEU-poängen innebär precision och ett korthetsstraff. Här är en förenklad version av formeln:

Var

  • BP är korthetsstraffet för att ta hänsyn till längden på den genererade texten jämfört med referenstexten/referenstexterna.

  • n är den maximala n-gramsordningen som anses vara (vanligtvis 4).

  • P_i är precisionen för i-grammet mellan den genererade texten och referenstexten.

Precisionen p_i för varje i-gram beräknas genom att dividera antalet matchande i-gram i den genererade texten med det totala antalet i-gram i den genererade texten. Detta precisionsvärde multipliceras tillsammans för alla i-gram-order och höjs sedan till potensen av det reciproka n (den maximala n-gramsordningen).

Korthetsstraffet (BP) straffar kortare översättningar genom att jämföra längden på den genererade texten med den närmaste referenstexten i termer av längd. Det beräknas som:

Var

  • c är längden på den genererade texten

  • r är längden på den närmaste referenstexten

Detta straff förhindrar alltför korta översättningar från att få oproportionerligt höga poäng.

Tänk på att detta är en förenklad förklaring av BLEU-poängformeln. Den faktiska beräkningen kan innebära ytterligare utjämningstekniker eller modifieringar för specifika varianter av BLEU som används i olika sammanhang.

Tolkning

BLEU-poängen sträcker sig från 0 till 1, där 1 anger en perfekt matchning mellan den genererade texten och referenstexten. Högre BLEU-poäng tyder i allmänhet på bättre översättningskvalitet, men det är viktigt att överväga dess begränsningar, som att inte ta hänsyn till semantisk betydelse eller flyt.

BLEU-poängen är inte ett absolut mått, och att jämföra BLEU-poäng mellan passager, språk eller till och med på samma språk med olika antal referensöversättningar (ju fler översättningar, desto mer sannolikt att matcha kandidatens n-gram) är inte korrekt.

Följande tolkning kan dock användas för att få en grov uppfattning om kvaliteten på översättningarna:

BLEUTolkning
﹤0,1Nästan värdelös
0,1-0,19Svårt att förstå kärnan
0,2-0,29Synet är tydligt, men har betydande grammatiska fel
0,3-0,39Förståeliga till bra översättningar
0,4-0,49Översättningar av hög kvalitet
0,5-0,59Mycket hög kvalitet, adekvata och flytande översättningar
≥0,6Kvaliteten är ofta bättre än människor

Det är värt att notera att BLEU bara är ett av flera mått som används för att utvärdera maskinöversättning och textgenerering, och det används ofta tillsammans med andra utvärderingsmetoder för en mer omfattande bedömning av modellens prestanda.


Career Services background pattern

Karriärtjänster

Contact Section background image

Låt oss hålla kontakten

Code Labs Academy © 2024 Alla rättigheter förbehållna.