Визначення
BLEU (BiLlingual Evaluation Understudy) — це показник, який використовується в обробці природної мови (NLP) і машинному перекладі для оцінки якості створеного тексту один або кілька високоякісних довідкових перекладів. Він вимірює, наскільки згенерований машиною текст схожий на один або кілька довідкових текстів, створених людиною.
BLEU працює шляхом порівняння n-грам (послідовностей з n послідовних слів) між згенерованим текстом і довідковими текстами. Він обчислює точність, враховуючи, скільки n-грамів у згенерованому тексті збігаються з тими, що містяться в тексті посилання. Тоді оцінка точності змінюється за допомогою штрафу за стислість, щоб уникнути переваги коротшим перекладам.
Відомо, що оцінка BLEU добре корелює з оцінкою людини щодо якості перекладу.
Формула для розрахунку балів BLEU передбачає штраф за точність і стислість. Ось спрощена версія формули:
Де
-
BP – це штраф за стислість для врахування довжини згенерованого тексту порівняно з текстом(ами) посилання.
-
n — максимальний розмір n-грамів, який розглядається (зазвичай 4).
-
P_i — це точність i-грами між згенерованим текстом і еталонним текстом(ами).
Точність p_i для кожної i-грами обчислюється шляхом ділення кількості відповідних i-грам у згенерованому тексті на загальну кількість i-грам у згенерованому тексті. Це значення точності множиться разом для всіх порядків i-грамів, а потім зводиться до ступеня, зворотного n (максимальний порядок n-грамів).
Покарання за стислість (BP) карає коротші переклади шляхом порівняння довжини створеного тексту з найближчим довідковим текстом з точки зору довжини. Він розраховується як:
Де
-
c – довжина згенерованого тексту
-
r - довжина найближчого довідкового тексту
Це покарання запобігає отриманню надто коротких перекладів непропорційно високих балів.
Майте на увазі, що це спрощене пояснення формули оцінки BLEU. Фактичне обчислення може включати додаткові методи згладжування або модифікації для конкретних варіантів BLEU, що використовуються в різних контекстах.
Інтерпретація
Оцінка BLEU коливається від 0 до 1, де 1 означає ідеальну відповідність між згенерованим текстом і текстом(ами) посилання. Вищі показники BLEU загалом свідчать про кращу якість перекладу, але важливо враховувати його обмеження, такі як неврахування семантичного значення чи вільності перекладу.
Оцінка BLEU не є абсолютним показником, і порівняння оцінок BLEU між уривками, мовами чи навіть тією самою мовою з різною кількістю еталонних перекладів (чим більше перекладів, тим більша ймовірність відповідності кандидатським n-грамам) не є точним.
Проте наведену нижче тлумачення можна використати, щоб отримати приблизне уявлення якості перекладів:
<таблиця>
BLEU Тлумачення ﹤0,1 Майже марно 0,1-0,19 Важко зрозуміти суть 0,2-0,29 Суть зрозуміла, але містить значні граматичні помилки 0,3-0,39 Зрозумілий для хорошого перекладу 0,4-0,49 Високоякісні переклади 0,5-0,59 Дуже якісні, адекватні та вільні переклади ≥0,6 Якість часто краща, ніж у людейВарто зазначити, що BLEU — це лише один із кількох показників, які використовуються для оцінки машинного перекладу та створення тексту, і його часто використовують разом з іншими методами оцінювання для більш повної оцінки ефективності моделі.