Вызначэнне
BLEU (BiLlingual Evaluation Understudy) - гэта паказчык, які выкарыстоўваецца ў апрацоўцы натуральнай мовы (NLP) і машынным перакладзе для ацэнкі якасці створанага тэксту ў параўнанні з адзін або некалькі высакаякасных даведачных перакладаў. Ён вымярае, наколькі тэкст, створаны машынай, падобны на адзін ці некалькі даведачных тэкстаў, створаных чалавекам.
BLEU працуе шляхам параўнання n-грам (паслядоўнасцей з n паслядоўных слоў) паміж створаным тэкстам і даведачнымі тэкстамі. Ён разлічвае дакладнасць, улічваючы, колькі n-грамаў у згенераваным тэксце супадае з лічбамі ў эталонным тэксце(ах). Ацэнка дакладнасці затым змяняецца штрафам за кароткасць, каб пазбегнуць перавагі больш кароткіх перакладаў.
Вядома, што бал BLEU добра карэлюе з чалавечым меркаваннем аб якасці перакладу.
Формула для разліку бала BLEU прадугледжвае штраф за дакладнасць і кароткасць. Вось спрошчаная версія формулы:
дзе
-
BP - гэта штраф за сцісласць для ўліку даўжыні згенераванага тэксту ў параўнанні з эталонным тэкстам(амі).
-
n - максімальны разгляданы парадак n-грам (звычайна 4).
-
P_i - гэта дакладнасць i-граммы паміж згенераваным тэкстам і эталонным тэкстам(амі).
Дакладнасць p_i для кожнай i-грамы вылічваецца шляхам дзялення колькасці адпаведных i-грам у згенераваным тэксце на агульную колькасць i-грам у згенераваным тэксце. Гэта значэнне дакладнасці памнажаецца разам для ўсіх парадкаў i-грам, а затым узводзіцца да ступені зваротнай велічыні n (максімальны парадак n-грамаў).
Пакаранне за кароткасць (BP) карае больш кароткія пераклады шляхам параўнання даўжыні створанага тэксту з бліжэйшым даведачным тэкстам з пункту гледжання даўжыні. Ён разлічваецца як:
дзе
-
c - даўжыня згенераванага тэксту
-
r - даўжыня бліжэйшага даведачнага тэксту
Гэты штраф прадухіляе занадта кароткія пераклады ад атрымання непрапарцыйна высокіх балаў.
Майце на ўвазе, што гэта спрошчанае тлумачэнне формулы балаў BLEU. Фактычнае вылічэнне можа ўключаць дадатковыя метады згладжвання або мадыфікацыі для пэўных варыянтаў BLEU, якія выкарыстоўваюцца ў розных кантэкстах.
Інтэрпрэтацыя
Ацэнка BLEU вагаецца ад 0 да 1, дзе 1 азначае ідэальнае супадзенне паміж створаным тэкстам і эталонным тэкстам(амі). Больш высокія балы BLEU звычайна сведчаць аб лепшай якасці перакладу, але вельмі важна ўлічваць яго абмежаванні, такія як адсутнасць уліку семантычнага значэння або бегласці.
Ацэнка BLEU не з'яўляецца абсалютнай мерай, і параўнанне ацэнак BLEU паміж урыўкамі, мовамі ці нават на адной мове з рознай колькасцю эталонных перакладаў (чым больш перакладаў, тым больш верагоднасць супадзення з кандыдатамі n-грам) недакладнае.
Аднак наступная інтэрпрэтацыя можа быць выкарыстана, каб атрымаць прыблізнае ўяўленне якасці перакладаў:
<табліца>
<загаловак>
BLEU Інтэрпрэтацыя ﹤0,1 Амаль бескарысна 0,1-0,19 Цяжка зразумець сутнасць 0,2-0,29 Сутнасць зразумелая, але мае значныя граматычныя памылкі 0,3-0,39 Зразумелы для добрых перакладаў 0,4-0,49 Высокая якасць перакладаў 0,5-0,59 Вельмі высокая якасць, адэкватныя і беглыя пераклады ≥0,6 Якасць часта лепшая, чым у людзейВарта адзначыць, што BLEU - гэта толькі адзін з некалькіх паказчыкаў, якія выкарыстоўваюцца для ацэнкі машыннага перакладу і генерацыі тэксту, і ён часта выкарыстоўваецца разам з іншымі метадамі ацэнкі для больш поўнай ацэнкі прадукцыйнасці мадэлі.