Definizioa
BLEU (BiLlingual Ebalorazioa Uunderstudy) hizkuntza naturalen prozesamenduan (NLP) eta itzulpen automatikoan erabiltzen den metrika da, sortutako testuaren kalitatea ebaluatzeko. kalitate handiko erreferentziazko itzulpen bat edo gehiago. Makinaz sortutako testu batek gizakiek sortutako erreferentzia-testu batekin edo gehiagorekin duten antzekotasuna neurtzen du.
BLEUk n-gramak (n ondoz ondoko sekuentziak) konparatuz funtzionatzen du sortutako testuaren eta erreferentziazko testuen artean. Zehaztasuna kalkulatzen du, kontuan hartuta sortutako testuan zenbat n-gram bat datozen erreferentzia-testuetan. Ondoren, zehaztasun puntuazioa laburtasun-zigor baten bidez aldatzen da, itzulpen laburragoak egitea saihesteko.
Jakina da BLEU puntuazioa itzulpen-kalitateari buruzko giza iritziarekin ondo erlazionatzen duela.
BLEU puntuazioa kalkulatzeko formulak zehaztasuna eta laburtasunaren zigorra dakar. Hona hemen formularen bertsio sinplifikatu bat:
Non
-
BP laburtasun-zigorra da sortutako testuaren luzera kontuan hartzeko erreferentzia-testuekin alderatuta.
-
n kontuan hartzen den n-gramen ordena maximoa da (normalean 4).
-
P_i sortutako testuaren eta erreferentziazko testuen arteko i-gramaren zehaztasuna da.
I-grama bakoitzeko p_i zehaztasuna sortutako testuan bat datozen i-gramen kopurua sortutako testuko i-gramen guztizkoarekin zatituz kalkulatzen da. Zehaztasun-balio hau i-gramen ordena guztietan biderkatzen da eta gero n-ren elkarrekiko potentziara igotzen da (n-gramen ordena maximoa).
Laburtasun zigorrak (BP) itzulpen laburragoak zigortzen ditu sortutako testuaren luzera luzerari dagokionez hurbilen dagoen erreferentzia testuarekin alderatuz. Honela kalkulatzen da:
Non
-
c sortutako testuaren luzera da
-
r erreferentzia-testu hurbilenaren luzera da
Zigor honek itzulpen laburregiek puntuazio neurrigabeak jasotzea eragozten du.
Kontuan izan BLEU puntuazio-formularen azalpen sinplifikatua dela. Benetako konputazioak leuntze-teknika gehigarriak edo aldaketak izan ditzake testuinguru desberdinetan erabilitako BLEUren aldaera zehatzetarako.
Interpretazioa
BLEU puntuazioa 0tik 1era bitartekoa da, non 1ak sortutako testuaren eta erreferentziazko testuaren arteko bat-etortze ezin hobea adierazten du. BLEU puntuazio altuek, oro har, itzulpen-kalitate hobea iradokitzen dute, baina ezinbestekoa da haren mugak kontuan hartzea, esate baterako, esanahi semantikoa edo jariotasuna ez kontuan hartzea.
BLEU puntuazioa ez da neurketa absolutua, eta pasarteen, hizkuntzen arteko BLEU puntuazioak edo baita hizkuntza berean erreferentziazko itzulpen kopuru desberdinekin alderatzea (zenbat eta itzulpen gehiago, orduan eta n-grama hautagaiekin bat etortzeko aukera gehiago) ez da zehatza.
Ondorengo interpretazioa, hala ere, [ideia latza] bat lortzeko erabil daiteke (https://www.cs.cmu. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf) itzulpenen kalitatearen arabera:
Azpimarratzekoa da BLEU itzulpen automatikoa eta testua sortzea ebaluatzeko erabiltzen diren neurgailuetako bat besterik ez dela, eta beste ebaluazio metodo batzuekin batera erabili ohi dela ereduaren errendimenduaren ebaluazio integralagoa lortzeko.