Meghatározás
A BLEU (BiLingual Evaluation Understudy) a természetes nyelvi feldolgozásban (NLP) és a gépi fordításban használt mérőszám a generált szöveg minőségének összehasonlítására. egy vagy több kiváló minőségű referenciafordítás. Azt méri, hogy egy gép által generált szöveg mennyire hasonlít egy vagy több ember által generált referenciaszöveghez.
A BLEU úgy működik, hogy n-grammot (n egymást követő szó sorozatát) hasonlít össze a generált szöveg és a referenciaszöveg között. Pontosságot számít ki, figyelembe véve, hogy a generált szövegben hány n-gramm egyezik a referenciaszöveg(ek)ben szereplővel. A pontossági pontszámot ezután egy rövidségi büntetés módosítja, hogy elkerülje a rövidebb fordítások előnyben részesítését.
A BLEU-pontszám köztudottan jól korrelál a fordítás minőségére vonatkozó emberi megítéléssel.
A BLEU-pontszám kiszámításának képlete pontosságot és rövidségi büntetést tartalmaz. Íme a képlet egyszerűsített változata:
Ahol
-
A BP a rövidségi büntetés, amely figyelembe veszi a generált szöveg hosszát a referenciaszöveg(ek)hez képest.
-
n a maximális figyelembe vett n-gramm sorrend (általában 4).
-
P_i az i-gram pontossága a generált szöveg és a referenciaszöveg(ek) között.
Az egyes i-gramok p_i pontosságát úgy számítjuk ki, hogy a generált szövegben lévő egyező i-gramok számát elosztjuk a generált szövegben lévő i-gramok teljes számával. Ezt a pontossági értéket az összes i-gramm sorrendre megszorozzuk, majd az n reciproka hatványára emeljük (a maximális n-gram sorrend).
A rövidítés büntetés (BP) a rövidebb fordításokat bünteti, mivel a generált szöveg hosszát összehasonlítja a hossz szempontjából legközelebbi referenciaszöveggel. Kiszámítása a következő:
Ahol
-
c a generált szöveg hossza
-
r a legközelebbi hivatkozási szöveg hossza
Ez a büntetés megakadályozza, hogy a túl rövid fordítások aránytalanul magas pontszámot kapjanak.
Ne feledje, hogy ez a BLEU pontszámképletének leegyszerűsített magyarázata. A tényleges számítás magában foglalhat további simítási technikákat vagy módosításokat a BLEU különböző kontextusokban használt változataihoz.
Tolmácsolás
A BLEU pontszám 0 és 1 között mozog, ahol az 1 a generált szöveg és a referenciaszöveg(ek) közötti tökéletes egyezést jelzi. A magasabb BLEU-pontszámok általában jobb fordítási minőséget sugallnak, de elengedhetetlen figyelembe venni annak korlátait, például a szemantikai jelentés vagy a folyékonyság figyelembevételét.
A BLEU-pontszám nem abszolút mérőszám, és a BLEU-pontszámok összehasonlítása szövegrészek, nyelvek vagy akár ugyanazon nyelven különböző számú referenciafordítással (minél több fordítás, annál valószínűbb, hogy egyezik a jelölt n-grammokkal) nem pontos.
A következő értelmezés azonban használható durva ötlet a fordítások minőségéről:
<tábla>
BLEU Interpretáció ﹤0,1 Majdnem haszontalan 0,1-0,19 Nehéz megérteni a lényeget 0,2-0,29 A lényeg világos, de jelentős nyelvtani hibákat tartalmaz 0,3-0,39 Érthető a jó fordításig 0,4-0,49 Kiváló minőségű fordítások 0,5-0,59 Nagyon jó minőségű, megfelelő és gördülékeny fordítások ≥0,6 A minőség gyakran jobb, mint az emberekÉrdemes megjegyezni, hogy a BLEU csak egy a gépi fordítás és a szöveggenerálás értékelésére használt mérőszámok közül, és gyakran más értékelési módszerekkel együtt használják a modell teljesítményének átfogóbb értékelésére.