## 定义
BLEU(BiLingual Evaluation Understudy)是自然语言处理 (NLP) 和机器翻译中使用的一种指标,用于评估生成文本的质量一份或多份高质量的参考翻译。它衡量机器生成的文本与一个或多个人类生成的参考文本的相似程度。
BLEU 的工作原理是比较生成文本和参考文本之间的 n 元语法(n 个连续单词的序列)。它会考虑生成文本中的 n-gram 数量与参考文本中的 n-gram 相匹配来计算精度。然后通过简洁性惩罚来修改精度分数,以避免偏向较短的翻译。
众所周知,BLEU 分数与人类对翻译质量的判断密切相关。
计算 BLEU 分数的公式涉及精度和简洁性损失。这是公式的简化版本:
在哪里
-
BP 是考虑生成文本与参考文本相比长度的简洁性惩罚。
-
n 是考虑的最大 n 元语法顺序(通常为 4)。
-
P_i 是生成文本和参考文本之间 i-gram 的精度。
每个 i-gram 的精度 p_i 是通过将生成的文本中匹配的 i-gram 数量除以生成的文本中的 i-gram 总数来计算的。对于所有 i-gram 阶数,将此精度值相乘,然后求 n 的倒数次方(最大 n-gram 阶数)。
简洁惩罚 (BP) 通过将生成文本的长度与长度最接近的参考文本进行比较来惩罚较短的翻译。其计算公式为:
在哪里
-c是生成文本的长度
- r 是最接近的参考文本的长度
这种惩罚可以防止过短的翻译获得不成比例的高分。
请记住,这是 BLEU 分数公式的简化解释。实际计算可能涉及额外的平滑技术或针对不同上下文中使用的 BLEU 特定变体的修改。
## 解释
BLEU 分数范围从 0 到 1,其中 1 表示生成的文本与参考文本之间完美匹配。 BLEU 分数越高通常表明翻译质量越好,但必须考虑其局限性,例如不考虑语义或流畅性。
BLEU 分数不是绝对的衡量标准,比较段落、语言之间的 BLEU 分数,甚至在具有不同数量的参考翻译的同一语言中(翻译越多,匹配候选 n 元语法的可能性越大)的 BLEU 分数并不准确。
<表>
<标题>
BLEU 解释</标题>
<正文>
﹤0.1 几乎没用 0.1-0.19 很难掌握要点 0.2-0.29 要点很清楚,但有明显的语法错误 0.3-0.39 易于理解的良好翻译 0.4-0.49 高质量翻译 0.5-0.59 非常高质量、充分且流畅的翻译 ≥0.6 质量通常比人类更好</表>
值得注意的是,BLEU 只是用于评估机器翻译和文本生成的几个指标之一,它通常与其他评估方法一起使用,以更全面地评估模型性能。