Սահմանում
BLEU (BiLլեզու Eգնահատում Understudy), չափիչ է, որն օգտագործվում է բնական լեզվի մշակման (NLP) և մեքենայական թարգմանության մեջ՝ գնահատելու համար ստեղծված տեքստի որակը: մեկ կամ մի քանի բարձրորակ տեղեկատու թարգմանություններ: Այն չափում է, թե որքան նման է մեքենայի կողմից ստեղծված տեքստը մեկ կամ մի քանի մարդու կողմից ստեղծված տեղեկատու տեքստերին:
BLEU-ն աշխատում է՝ համեմատելով n-գրամները (n հաջորդական բառերի հաջորդականություն) ստեղծված տեքստի և հղման տեքստերի միջև: Այն հաշվարկում է ճշգրտությունը՝ հաշվի առնելով, թե գեներացված տեքստում քանի n-գրամ է համընկնում հղման տեքստի(ներ)ի հետ: Ճշգրիտ միավորն այնուհետև փոփոխվում է հակիրճ տույժի միջոցով՝ խուսափելու համար ավելի կարճ թարգմանություններից:
Հայտնի է, որ BLEU միավորը լավ է փոխկապակցված թարգմանության որակի վերաբերյալ մարդկային դատողության հետ:
BLEU միավորի հաշվարկման բանաձևը ներառում է ճշգրտություն և հակիրճ տուգանք: Ահա բանաձևի պարզեցված տարբերակը.
Որտեղ
-
BP-ն հակիրճության տույժ է՝ հաշվի առնելու ստեղծված տեքստի երկարությունը՝ համեմատած հղման տեքստ(ների) հետ:
-
n-ը դիտարկվող առավելագույն n-գրամային կարգն է (սովորաբար 4):
-
P_i-ն i-gram-ի ճշգրտությունն է գեներացված տեքստի և հղման տեքստի(ների) միջև:
Ճշգրիտ p_i-ն յուրաքանչյուր i-գրամի համար հաշվարկվում է՝ գեներացված տեքստում համապատասխան i-գրամների թիվը բաժանելով գեներացված տեքստի i-գրամների ընդհանուր թվին: Այս ճշգրիտ արժեքը բազմապատկվում է միասին բոլոր i-gram-ի պատվերների համար և այնուհետև բարձրացվում է մինչև n-ի փոխադարձության ուժը (ն-գրամի առավելագույն կարգը):
Հակիրճության տույժը (BP) պատժում է ավելի կարճ թարգմանություններին՝ համեմատելով ստեղծված տեքստի երկարությունը երկարության առումով ամենամոտ հղման տեքստի հետ: Այն հաշվարկվում է հետևյալ կերպ.
Որտեղ
-
c-ն ստեղծված տեքստի երկարությունն է
-
r-ը ամենամոտ հղման տեքստի երկարությունն է
Այս տույժը թույլ չի տալիս չափազանց կարճ թարգմանություններին ստանալ անհամաչափ բարձր միավորներ:
Հիշեք, որ սա BLEU միավորի բանաձևի պարզեցված բացատրությունն է: Փաստացի հաշվարկը կարող է ներառել հարթեցման լրացուցիչ տեխնիկա կամ փոփոխություններ BLEU-ի հատուկ տատանումների համար, որոնք օգտագործվում են տարբեր համատեքստերում:
Մեկնաբանություն
BLEU միավորը տատանվում է 0-ից 1-ի սահմաններում, որտեղ 1-ը ցույց է տալիս կատարյալ համընկնում ստեղծված տեքստի և հղման տեքստի (ների) միջև: BLEU-ի ավելի բարձր միավորները, ընդհանուր առմամբ, հուշում են թարգմանության ավելի լավ որակի մասին, սակայն անհրաժեշտ է հաշվի առնել դրա սահմանափակումները, ինչպիսիք են իմաստային իմաստը կամ սահունությունը չհաշվառելը:
BLEU միավորը բացարձակ չափանիշ չէ, և BLEU միավորները համեմատելը հատվածների, լեզուների կամ նույնիսկ նույն լեզվով տարբեր թվով տեղեկատու թարգմանությունների հետ (որքան շատ թարգմանություններ, այնքան ավելի հավանական է, որ համապատասխանի թեկնածու n-գրամներին) ճշգրիտ չէ:
Հետևյալ մեկնաբանությունը, այնուամենայնիվ, կարող է օգտագործվել [մոտավոր պատկերացում] ստանալու համար (https://www.cs.cmu. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf) թարգմանությունների որակի.
<աղյուսակ>
<գլուխ>
BLEU Մեկնաբանություն ﹤0.1 Գրեթե անօգուտ 0.1-0.19 Դժվար է հասկանալ էությունը 0.2-0.29 Էությունը պարզ է, բայց ունի քերականական զգալի սխալներ 0.3-0.39 Հասկանալի է լավ թարգմանությունների համար 0.4-0.49 Բարձր որակի թարգմանություններ 0.5-0.59 Շատ բարձրորակ, համարժեք և սահուն թարգմանություններ ≥0.6 Որակը հաճախ ավելի լավ է, քան մարդիկՀարկ է նշել, որ BLEU-ն ընդամենը մի քանի չափանիշներից մեկն է, որն օգտագործվում է մեքենայական թարգմանության և տեքստի ստեղծման համար, և այն հաճախ օգտագործվում է գնահատման այլ մեթոդների հետ մեկտեղ՝ մոդելի կատարողականի ավելի համապարփակ գնահատման համար: