Понимание оценки BLEU в НЛП: оценка качества перевода

Оценка BLEU
обработка естественного языка
оценка машинного перевода
Понимание оценки BLEU в НЛП: оценка качества перевода cover image

Определение

BLEU (BiLingual Evaluation Understudy) — это показатель, используемый в обработке естественного языка (NLP) и машинном переводе для оценки качества сгенерированного текста по сравнению с один или несколько высококачественных справочных переводов. Он измеряет, насколько текст, созданный машиной, похож на один или несколько справочных текстов, созданных человеком.

BLEU работает путем сравнения n-грамм (последовательностей из n последовательных слов) между сгенерированным текстом и ссылочными текстами. Он вычисляет точность, учитывая, сколько n-грамм в сгенерированном тексте соответствует таковому в справочном тексте(ах). Затем показатель точности модифицируется штрафом за краткость, чтобы избежать предпочтения более коротких переводов.

Известно, что оценка BLEU хорошо коррелирует с человеческим мнением о качестве перевода.

Формула расчета балла BLEU включает в себя точность и штраф за краткость. Вот упрощенная версия формулы:

Где

  • BP — это штраф за краткость, учитывающий длину сгенерированного текста по сравнению с ссылочным текстом(ами).

  • n — максимальный рассматриваемый порядок n-грамм (обычно 4).

  • P_i — это точность i-граммы между сгенерированным текстом и ссылочным текстом(ами).

Точность p_i для каждой i-граммы рассчитывается путем деления количества совпадающих i-грамм в сгенерированном тексте на общее количество i-грамм в сгенерированном тексте. Это значение точности умножается для всех порядков i-грамм, а затем возводится в степень, обратную n (максимальный порядок n-грамм).

Штраф за краткость (BP) наказывает за более короткие переводы, сравнивая длину сгенерированного текста с ближайшим справочным текстом по длине. Он рассчитывается как:

Где

  • c — длина сгенерированного текста

  • r — длина ближайшего ссылочного текста

Этот штраф не позволяет слишком коротким переводам получать непропорционально высокие оценки.

Имейте в виду, что это упрощенное объяснение формулы оценки BLEU. Фактические вычисления могут включать дополнительные методы сглаживания или модификации для конкретных вариантов BLEU, используемых в разных контекстах.

Интерпретация

Оценка BLEU варьируется от 0 до 1, где 1 указывает на идеальное совпадение сгенерированного текста и ссылочного текста(ов). Более высокие баллы BLEU обычно предполагают лучшее качество перевода, но важно учитывать его ограничения, такие как отсутствие учета семантического значения или беглости.

Оценка BLEU не является абсолютной мерой, и сравнение оценок BLEU между отрывками, языками или даже на одном языке с разным количеством справочных переводов (чем больше переводов, тем больше вероятность соответствия n-граммам-кандидатам) не является точным.

Однако следующую интерпретацию можно использовать для получения грубого представления качества переводов:

<таблица>

<голова>

<тр>

СИН Интерпретация

<тело>

<тр>

﹤0.1 Почти бесполезно

<тр>

0,1–0,19 Трудно уловить суть

<тр>

0,2–0,29 Суть понятна, но есть существенные грамматические ошибки

<тр>

0,3–0,39 Понятно для хороших переводов

<тр>

0,4–0,49 Высококачественные переводы

<тр>

0,5–0,59 Очень качественные, адекватные и беглые переводы

<тр>

≥0,6 Качество зачастую лучше, чем у людей

</таблица>

Стоит отметить, что BLEU — это лишь один из нескольких показателей, используемых для оценки машинного перевода и генерации текста, и он часто используется вместе с другими методами оценки для более полной оценки производительности модели.


Career Services background pattern

Карьерные услуги

Contact Section background image

Давай останемся на связи

Code Labs Academy © 2024 Все права защищены.