NLP における BLEU スコアの理解: 翻訳品質の評価

最終更新：September 03, 2024 読了時間：約1分

＃＃意味

BLEU (BiLingual Evaluation Uunderstudy) は、生成されたテキストの品質を評価するために自然言語処理 (NLP) と機械翻訳で使用される指標です。 1 つ以上の高品質の参考翻訳。機械が生成したテキストが、人間が生成した 1 つ以上の参照テキストとどの程度類似しているかを測定します。

BLEU は、生成されたテキストと参照テキストの間で n グラム (n 個の連続した単語のシーケンス) を比較することによって機能します。生成されたテキスト内の N グラムが参照テキスト内の N グラムと一致するかどうかを考慮して、精度を計算します。次に、精度スコアは、より短い翻訳が優先されるのを避けるために、簡潔さのペナルティによって修正されます。

BLEU スコアは、翻訳品質に関する人間の判断とよく相関することが知られています。

BLEU スコアを計算する式には、精度と簡潔さのペナルティが含まれます。式の簡略版は次のとおりです。

どこ

BP は、参照テキストと比較した生成テキストの長さを考慮した簡潔さのペナルティです。
n は考慮される最大の n グラム次数です (通常は 4)。
P_i は、生成されたテキストと参照テキストの間の i-gram の精度です。

各 i グラムの精度 p_i は、生成されたテキスト内の一致する i グラムの数を、生成されたテキスト内の i グラムの総数で割ることによって計算されます。この精度の値は、すべての i グラム次数に対して乗算され、n の逆数 (最大 n グラム次数) に乗算されます。

簡潔さペナルティ (BP) は、生成されたテキストの長さを長さの点で最も近い参照テキストと比較することにより、より短い翻訳にペナルティを与えます。次のように計算されます。

どこ

c は生成されたテキストの長さです。
r は最も近い参照テキストの長さです。

このペナルティにより、短すぎる翻訳が不釣り合いに高いスコアを獲得するのを防ぎます。

これは BLEU スコアの計算式を簡略化した説明であることに注意してください。実際の計算には、さまざまなコンテキストで使用される BLEU の特定のバリエーションに対する追加の平滑化手法や変更が含まれる場合があります。

＃＃解釈

BLEU スコアの範囲は 0 ～ 1 で、1 は生成されたテキストと参照テキストが完全に一致することを示します。一般に、BLEU スコアが高いほど翻訳品質が高いことを示しますが、意味論的な意味や流暢性が考慮されていないなど、その制限を考慮することが重要です。

BLEU スコアは絶対的な尺度ではなく、パッセージ間、言語間、または同じ言語であっても参照翻訳数が異なる (翻訳数が多いほど、候補 N グラムと一致する可能性が高くなります) 場合でも BLEU スコアを比較することは正確ではありません。

ただし、次の解釈は、[大まかなアイデア](https://www.cs.cmu. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf）の翻訳の品質:

<テーブル>

<頭>

ブルー解釈

<本体>

﹤0.1 ほとんど役に立たない 0.1-0.19 要点を理解するのが難しい 0.2-0.29 要点は明確ですが、重大な文法上の誤りがあります 0.3-0.39 わかりやすい翻訳から優れた翻訳まで 0.4-0.49 高品質の翻訳 0.5-0.59 非常に高品質、適切かつ流暢な翻訳 ≥0.6 人間よりも品質が優れていることがよくあります

</テーブル>

BLEU は機械翻訳とテキスト生成の評価に使用されるいくつかの指標の 1 つにすぎず、モデルのパフォーマンスをより包括的に評価するために他の評価方法と併用されることが多いことに注意してください。