Определение
BLEU (BiLingual Evaluation Understudy) — это показатель, используемый в обработке естественного языка (NLP) и машинном переводе для оценки качества сгенерированного текста по сравнению с один или несколько высококачественных справочных переводов. Он измеряет, насколько текст, созданный машиной, похож на один или несколько справочных текстов, созданных человеком.
BLEU работает путем сравнения n-грамм (последовательностей из n последовательных слов) между сгенерированным текстом и ссылочными текстами. Он вычисляет точность, учитывая, сколько n-грамм в сгенерированном тексте соответствует таковому в справочном тексте(ах). Затем показатель точности модифицируется штрафом за краткость, чтобы избежать предпочтения более коротких переводов.
Известно, что оценка BLEU хорошо коррелирует с человеческим мнением о качестве перевода.
Формула расчета балла BLEU включает в себя точность и штраф за краткость. Вот упрощенная версия формулы:
Где
-
BP — это штраф за краткость, учитывающий длину сгенерированного текста по сравнению с ссылочным текстом(ами).
-
n — максимальный рассматриваемый порядок n-грамм (обычно 4).
-
P_i — это точность i-граммы между сгенерированным текстом и ссылочным текстом(ами).
Точность p_i для каждой i-граммы рассчитывается путем деления количества совпадающих i-грамм в сгенерированном тексте на общее количество i-грамм в сгенерированном тексте. Это значение точности умножается для всех порядков i-грамм, а затем возводится в степень, обратную n (максимальный порядок n-грамм).
Штраф за краткость (BP) наказывает за более короткие переводы, сравнивая длину сгенерированного текста с ближайшим справочным текстом по длине. Он рассчитывается как:
Где
-
c — длина сгенерированного текста
-
r — длина ближайшего ссылочного текста
Этот штраф не позволяет слишком коротким переводам получать непропорционально высокие оценки.
Имейте в виду, что это упрощенное объяснение формулы оценки BLEU. Фактические вычисления могут включать дополнительные методы сглаживания или модификации для конкретных вариантов BLEU, используемых в разных контекстах.
Интерпретация
Оценка BLEU варьируется от 0 до 1, где 1 указывает на идеальное совпадение сгенерированного текста и ссылочного текста(ов). Более высокие баллы BLEU обычно предполагают лучшее качество перевода, но важно учитывать его ограничения, такие как отсутствие учета семантического значения или беглости.
Оценка BLEU не является абсолютной мерой, и сравнение оценок BLEU между отрывками, языками или даже на одном языке с разным количеством справочных переводов (чем больше переводов, тем больше вероятность соответствия n-граммам-кандидатам) не является точным.
Однако следующую интерпретацию можно использовать для получения грубого представления качества переводов:
<таблица>
<голова>
<тр>
СИН Интерпретация<тело>
<тр>
﹤0.1 Почти бесполезно<тр>
0,1–0,19 Трудно уловить суть<тр>
0,2–0,29 Суть понятна, но есть существенные грамматические ошибки<тр>
0,3–0,39 Понятно для хороших переводов<тр>
0,4–0,49 Высококачественные переводы<тр>
0,5–0,59 Очень качественные, адекватные и беглые переводы<тр>
≥0,6 Качество зачастую лучше, чем у людей</таблица>
Стоит отметить, что BLEU — это лишь один из нескольких показателей, используемых для оценки машинного перевода и генерации текста, и он часто используется вместе с другими методами оценки для более полной оценки производительности модели.