Definition
BLEU (BiLingual Evaluation Understudy) ist eine Metrik, die in der Verarbeitung natürlicher Sprache (NLP) und der maschinellen Übersetzung verwendet wird, um die Qualität eines generierten Textes im Vergleich zu einer oder mehreren hochwertigen Referenzübersetzungen zu bewerten. Sie misst, wie ähnlich ein maschinell erstellter Text einem oder mehreren von Menschen erstellten Referenztexten ist.
BLEU vergleicht n-Gramme (Sequenzen von n aufeinanderfolgenden Wörtern) zwischen dem generierten Text und den Referenztexten. Bei der Berechnung der Präzision wird berücksichtigt, wie viele n-Gramme im generierten Text mit denen in den Referenztexten übereinstimmen. Der Präzisionswert wird dann durch einen Prägnanzabzug modifiziert, um zu vermeiden, dass kürzere Übersetzungen bevorzugt werden.
Es ist bekannt, dass der BLEU-Score gut mit der menschlichen Beurteilung der Übersetzungsqualität korreliert.
Die Formel für die Berechnung des BLEU-Scores beinhaltet einen Präzisions- und einen Knappheitsabzug. Hier ist eine vereinfachte Version der Formel:
Wo
-
BP ist die Strafe für die Kürze, um die Länge des generierten Textes im Vergleich zu den Referenztexten zu berücksichtigen.
-
n ist die maximal berücksichtigte n-Gramm-Reihenfolge (normalerweise 4).
-
P_i ist die Präzision des i-Grams zwischen dem generierten Text und dem/den Referenztext(en).
Die Genauigkeit p_i für jedes i-Gramm wird berechnet, indem die Anzahl der übereinstimmenden i-Gramme im generierten Text durch die Gesamtzahl der i-Gramme im generierten Text dividiert wird. Dieser Präzisionswert wird für alle i-Gramm-Reihenfolgen miteinander multipliziert und dann mit dem Kehrwert von n (der maximalen n-Gramm-Reihenfolge) hochgezählt.
Der Brevity Penalty (BP) bestraft kürzere Übersetzungen, indem er die Länge des generierten Textes mit dem längenmäßig am nächsten liegenden Referenztext vergleicht. Sie wird wie folgt berechnet:
Wo
-
c ist die Länge des erzeugten Textes
-
r ist die Länge des nächstgelegenen Referenztextes
Diese Strafe verhindert, dass zu kurze Übersetzungen eine unverhältnismäßig hohe Punktzahl erhalten.
Bitte beachten Sie, dass dies eine vereinfachte Erklärung der BLEU-Formel ist. Die tatsächliche Berechnung kann zusätzliche Glättungsverfahren oder Änderungen für spezifische Variationen von BLEU beinhalten, die in verschiedenen Kontexten verwendet werden.
Auslegung
Der BLEU-Wert reicht von 0 bis 1, wobei 1 für eine perfekte Übereinstimmung zwischen dem generierten Text und dem/den Referenztext(en) steht. Höhere BLEU-Werte deuten in der Regel auf eine bessere Übersetzungsqualität hin, aber es ist wichtig, seine Grenzen zu beachten, wie z. B. die Nichtberücksichtigung der semantischen Bedeutung oder des Sprachflusses.
Der BLEU-Wert ist kein absolutes Maß, und der Vergleich von BLEU-Werten zwischen Passagen, Sprachen oder sogar in derselben Sprache mit einer unterschiedlichen Anzahl von Referenzübersetzungen (je mehr Übersetzungen, desto wahrscheinlicher ist eine Übereinstimmung mit den Kandidaten-N-Grammen) ist nicht genau.
The following interpretation, however, can be used to get a rough idea of quality of the translations:
BLEU | Auslegung |
---|---|
﹤0.1 | Fast nutzlos |
0.1-0.19 | Es ist schwer, das Wesentliche zu verstehen |
0.2-0.29 | Das Wesentliche ist klar, hat aber erhebliche grammatikalische Fehler |
0.3-0.39 | Verständliche bis gute Übersetzungen |
0.4-0.49 | Hochwertige Übersetzungen |
0.5-0.59 | Sehr gute, angemessene und fließende Übersetzungen |
≥0.6 | Qualität oft besser als beim Menschen |
Es ist erwähnenswert, dass BLEU nur eine von mehreren Metriken ist, die zur Bewertung von maschineller Übersetzung und Texterstellung verwendet werden, und dass sie oft zusammen mit anderen Bewertungsmethoden für eine umfassendere Bewertung der Modellleistung eingesetzt wird.