Den BLEU-Score im NLP verstehen: Bewertung der Übersetzungsqualität

Aktualisiert am September 24, 2024 Lesedauer: 3 Minuten

Definition

BLEU (BiLingual Evaluation Understudy) ist eine Metrik, die in der Verarbeitung natürlicher Sprache (NLP) und der maschinellen Übersetzung verwendet wird, um die Qualität des generierten Textes zu bewerten eine oder mehrere hochwertige Referenzübersetzungen. Es misst, wie ähnlich ein maschinell erstellter Text einem oder mehreren von Menschen erstellten Referenztexten ist.

BLEU funktioniert durch den Vergleich von N-Grammen (Sequenzen von n aufeinanderfolgenden Wörtern) zwischen dem generierten Text und den Referenztexten. Die Genauigkeit wird berechnet, indem berücksichtigt wird, wie viele N-Gramm im generierten Text mit denen in den Referenztexten übereinstimmen. Der Präzisionswert wird dann durch einen Kürzelwert modifiziert, um kürzere Übersetzungen nicht zu bevorzugen.

Es ist bekannt, dass der BLEU-Score gut mit der menschlichen Beurteilung der Übersetzungsqualität korreliert.

Die Formel zur Berechnung des BLEU-Scores beinhaltet Präzision und einen Kürze-Abzug. Hier ist eine vereinfachte Version der Formel:

BP ist der Kürzel, der die Länge des generierten Textes im Vergleich zum Referenztext(en) berücksichtigt.
n ist die maximale berücksichtigte N-Gramm-Reihenfolge (normalerweise 4).
P_i ist die Genauigkeit des i-Gramms zwischen dem generierten Text und dem/den Referenztext(en).

Die Genauigkeit p_i für jedes i-Gramm wird berechnet, indem die Anzahl der übereinstimmenden i-Gramm im generierten Text durch die Gesamtzahl der i-Gramm im generierten Text dividiert wird. Dieser Präzisionswert wird für alle i-Gramm-Ordnungen miteinander multipliziert und dann mit dem Kehrwert von n (der maximalen n-Gramm-Ordnung) potenziert.

Der Kürzelwert (BP) bestraft kürzere Übersetzungen, indem er die Länge des generierten Textes mit dem längenmäßig nächstgelegenen Referenztext vergleicht. Es wird wie folgt berechnet:

c ist die Länge des generierten Textes
r ist die Länge des nächstgelegenen Referenztextes

Diese Strafe verhindert, dass zu kurze Übersetzungen unverhältnismäßig hohe Bewertungen erhalten.

Beachten Sie, dass dies eine vereinfachte Erklärung der BLEU-Score-Formel ist. Die eigentliche Berechnung kann zusätzliche Glättungstechniken oder Modifikationen für bestimmte BLEU-Varianten umfassen, die in unterschiedlichen Kontexten verwendet werden.

Interpretation

Der BLEU-Score reicht von 0 bis 1, wobei 1 eine perfekte Übereinstimmung zwischen dem generierten Text und dem/den Referenztext(en) anzeigt. Höhere BLEU-Werte deuten im Allgemeinen auf eine bessere Übersetzungsqualität hin, es ist jedoch wichtig, die Einschränkungen zu berücksichtigen, z. B. die Nichtberücksichtigung semantischer Bedeutung oder Sprachkompetenz.

Der BLEU-Score ist kein absolutes Maß, und der Vergleich der BLEU-Scores zwischen Passagen, Sprachen oder sogar in derselben Sprache mit unterschiedlicher Anzahl von Referenzübersetzungen (je mehr Übersetzungen, desto wahrscheinlicher ist es, dass sie mit den Kandidaten-n-Grammen übereinstimmen) ist nicht genau.

Die folgende Interpretation kann jedoch verwendet werden, um eine grobe Vorstellung zu bekommen. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf) der Qualität der Übersetzungen:

BLEU Interpretation ﹤0,1 Fast nutzlos 0,1–0,19 Schwer das Wesentliche zu verstehen 0,2–0,29 Der Kern ist klar, weist jedoch erhebliche grammatikalische Fehler auf 0,3–0,39 Verständlich bis gute Übersetzungen 0,4–0,49 Hochwertige Übersetzungen 0,5–0,59 Sehr hochwertige, angemessene und flüssige Übersetzungen ≥0,6 Qualität oft besser als die von Menschen

Es ist erwähnenswert, dass BLEU nur eine von mehreren Metriken ist, die zur Bewertung der maschinellen Übersetzung und Textgenerierung verwendet werden, und häufig zusammen mit anderen Bewertungsmethoden für eine umfassendere Bewertung der Modellleistung verwendet wird.