BLEU-Score im NLP

Was ist der BLEU-Score im NLP?

Juniorský

Strojové učení


Definition

BLEU (BiLingual Evaluation Understudy), ist eine Metrik, die im Neuro-Linguistischen Programmieren (NLP) und der maschinellen Übersetzung verwendet wird, um die Qualität eines generierten Textes im Vergleich zu einer oder mehreren hochwertigen Referenzübersetzungen zu bewerten. Sie misst, wie ähnlich ein maschinell erstellter Text einem oder mehreren von Menschen erstellten Referenztexten ist. BLEU vergleicht N-Gramme (Sequenzen von N aufeinanderfolgenden Wörtern) zwischen dem generierten Text und den Referenztexten. Es berechnet die Präzision, indem es berücksichtigt, wie viele N-Gramme im generierten Text mit denen in den Referenztexten übereinstimmen. Der Präzisionswert wird dann durch einen Prägnanzabzug modifiziert, um zu vermeiden, dass kürzere Übersetzungen bevorzugt werden. Es ist bekannt, dass der BLEU-Wert gut mit der menschlichen Beurteilung der Übersetzungsqualität korreliert.

Die Formel zur Berechnung der BLEU-Punktzahl setzt sich aus der Genauigkeit und einem Malus für die Kürze zusammen. Hier ist eine vereinfachte Version der Formel:

Dabei ist

Die Genauigkeit p_i für jedes i-Gramm wird berechnet, indem die Anzahl der übereinstimmenden i-Gramme im generierten Text durch die Gesamtzahl der i-Gramme im generierten Text dividiert wird. Dieser Präzisionswert wird für alle i-Gramm-Reihenfolgen miteinander multipliziert und dann auf die Potenz des Kehrwerts von n (der maximalen n-Gramm-Reihenfolge) angehoben.

Die Brevity Penalty (BP) bestraft kürzere Übersetzungen, indem sie die Länge des generierten Textes mit dem längenmäßig nächstgelegenen Referenztext vergleicht. Sie wird wie folgt berechnet:

Dabei ist

Dieser Abzug verhindert, dass zu kurze Übersetzungen eine unverhältnismäßig hohe Punktzahl erhalten. Bitte beachte, dass dies eine vereinfachte Erklärung der BLEU-Formel ist. Die eigentliche Berechnung kann zusätzliche Glättungsmethoden oder Modifikationen für spezifische BLEU-Varianten beinhalten, die in verschiedenen Kontexten verwendet werden.

Interpretation

Der BLEU-Wert reicht von 0 bis 1, wobei 1 für eine perfekte Übereinstimmung zwischen dem generierten Text und dem/den Referenztext(en) steht. Höhere BLEU-Werte deuten im Allgemeinen auf eine bessere Übersetzungsqualität hin, aber es ist wichtig, die Grenzen des BLEU-Wertes zu beachten, da er beispielsweise die semantische Bedeutung oder den Sprachfluss nicht berücksichtigt. Der BLEU-Wert ist kein absolutes Maß, und der Vergleich von BLEU-Werten zwischen Passagen, Sprachen oder sogar in derselben Sprache mit einer unterschiedlichen Anzahl von Referenzübersetzungen (je mehr Übersetzungen, desto wahrscheinlicher die Übereinstimmung mit den Kandidaten-N-Grammen) ist nicht genau. Die folgende Interpretation kann jedoch verwendet werden, um eine grobe Vorstellung von der Qualität der Übersetzungen zu bekommen:

Die folgende interpretation, kann jedoch verwendet werden, um eine ungefähre Vorstellung von der Qualität der Übersetzungen zu bekommen:

BLEU Interpretation
﹤0.1 Fast unbrauchbar
0.1-0.19 Schwierig, das Wesentliche zu verstehen
0.2-0.29 Das Wesentliche ist klar, hat aber erhebliche grammatikalische Fehler
0.3-0.39 Verständlich bis gute Übersetzungen
0.4-0.49 Hochwertige Übersetzungen
0.5-0.59 Sehr gute, angemessene und fließende Übersetzungen
≥0.6 Qualität oft besser als bei Menschen

Es ist erwähnenswert, dass BLEU nur eine von mehreren Metriken ist, die zur Bewertung der maschinellen Übersetzung und Textgenerierung verwendet werden, und häufig zusammen mit anderen Bewertungsmethoden für eine umfassendere Bewertung der Modellleistung verwendet wird.