Kahulugan
Ang BLEU (BiLingual Evaluation Understudy), ay isang sukatan na ginagamit sa natural language processing (NLP) at machine translation upang suriin ang kalidad ng nabuong teksto laban sa isa o higit pang mataas na kalidad na sangguniang pagsasalin. Sinusukat nito kung gaano kapareho ang isang text na binuo ng makina sa isa o higit pang mga reference na text na binuo ng tao.
Gumagana ang BLEU sa pamamagitan ng paghahambing ng mga n-grams (mga pagkakasunud-sunod ng n magkakasunod na salita) sa pagitan ng nabuong teksto at ng mga reference na teksto. Kinakalkula nito ang katumpakan, isinasaalang-alang kung gaano karaming mga n-gram sa nabuong teksto ang tumutugma sa mga nasa (mga) reference na teksto. Ang marka ng katumpakan ay binago ng isang maikling parusa upang maiwasan ang pagpabor sa mas maiikling pagsasalin.
Ang marka ng BLEU ay kilala na mahusay na nauugnay sa paghatol ng tao sa kalidad ng pagsasalin.
Ang formula para sa pagkalkula ng marka ng BLEU ay nagsasangkot ng katumpakan at isang maikling parusa. Narito ang isang pinasimpleng bersyon ng formula:
saan
-
Ang BP ay ang kaiklian ng parusa para sa haba ng nabuong teksto kumpara sa (mga) reference na teksto.
-
n ay ang pinakamataas na n-gram na order na isinasaalang-alang (karaniwan ay 4).
-
Ang P_i ay ang katumpakan ng i-gram sa pagitan ng nabuong teksto at ng (mga) reference na teksto.
Ang katumpakan p_i para sa bawat i-gram ay kinakalkula sa pamamagitan ng paghahati sa bilang ng mga tumutugmang i-gram sa nabuong teksto sa kabuuang bilang ng mga i-gram sa nabuong teksto. Ang katumpakan na halaga na ito ay pinarami nang sama-sama para sa lahat ng i-gram na order at pagkatapos ay itataas sa kapangyarihan ng kapalit ng n (ang pinakamataas na n-gram na order).
Ang brevity penalty (BP) ay nagpaparusa sa mas maiikling pagsasalin sa pamamagitan ng paghahambing ng haba ng nabuong text sa pinakamalapit na reference na text sa mga tuntunin ng haba. Ito ay kinakalkula bilang:
saan
-
c ay ang haba ng nabuong teksto
-
r ay ang haba ng pinakamalapit na reference text
Pinipigilan ng parusang ito ang mga sobrang maiikling pagsasalin na makatanggap ng mga hindi katimbang na matataas na marka.
Tandaan na ito ay isang pinasimpleng paliwanag ng formula ng BLEU score. Ang aktwal na pagkalkula ay maaaring may kasamang karagdagang mga diskarte sa pagpapakinis o pagbabago para sa mga partikular na variation ng BLEU na ginagamit sa iba't ibang konteksto.
Interpretasyon
Ang marka ng BLEU ay mula 0 hanggang 1, kung saan ang 1 ay nagpapahiwatig ng perpektong tugma sa pagitan ng nabuong teksto at ng (mga) reference na teksto. Ang mas mataas na mga marka ng BLEU sa pangkalahatan ay nagmumungkahi ng mas mahusay na kalidad ng pagsasalin, ngunit mahalagang isaalang-alang ang mga limitasyon nito, tulad ng hindi pagsasaalang-alang para sa semantic na kahulugan o katatasan.
Ang marka ng BLEU ay hindi isang ganap na sukat, at ang paghahambing ng mga marka ng BLEU sa pagitan ng mga sipi, wika, o kahit sa parehong wika na may iba't ibang bilang ng mga pagsasalin ng sanggunian (mas maraming pagsasalin, mas malamang na tumugma sa kandidatong n-grams) ay hindi tumpak.
Gayunpaman, ang sumusunod na interpretasyon, ay maaaring gamitin upang makakuha ng magaspang na ideya ng kalidad ng mga pagsasalin:
Mahalagang tandaan na ang BLEU ay isa lamang sa ilang sukatan na ginagamit upang suriin ang pagsasalin ng makina at pagbuo ng teksto, at madalas itong ginagamit kasama ng iba pang mga paraan ng pagsusuri para sa isang mas komprehensibong pagtatasa ng pagganap ng modelo.