Definizione
BLEU (BiLingual Evaluation Understudy), è una metrica utilizzata nell'elaborazione del linguaggio naturale (NLP) e nella traduzione automatica per valutare la qualità del testo generato rispetto a una o più traduzioni di riferimento di alta qualità. Misura quanto un testo generato da una macchina sia simile a uno o più testi di riferimento generati dall’uomo.
BLEU funziona confrontando n-grammi (sequenze di n parole consecutive) tra il testo generato e i testi di riferimento. Calcola la precisione, considerando quanti n grammi nel testo generato corrispondono a quelli nei testi di riferimento. Il punteggio di precisione viene poi modificato da una penalità di brevità per evitare di favorire traduzioni più brevi.
È noto che il punteggio BLEU è ben correlato al giudizio umano sulla qualità della traduzione.
La formula per il calcolo del punteggio BLEU prevede precisione e penalità di brevità. Ecco una versione semplificata della formula:
Dove
-
BP è la penalità di brevità per tenere conto della lunghezza del testo generato rispetto al/i testo/i di riferimento.
-
n è l'ordine massimo di n grammi considerato (normalmente 4).
-
P_i è la precisione dell'i-gramma tra il testo generato e il/i testo/i di riferimento.
La precisione p_i per ciascun i-gram viene calcolata dividendo il numero di i-gram corrispondenti nel testo generato per il numero totale di i-gram nel testo generato. Questo valore di precisione viene moltiplicato insieme per tutti gli ordini di i-grammi e quindi elevato alla potenza del reciproco di n (l'ordine massimo di n-grammi).
La penalità di brevità (BP) penalizza le traduzioni più brevi confrontando la lunghezza del testo generato con il testo di riferimento più vicino in termini di lunghezza. Viene calcolato come:
Dove
-
c è la lunghezza del testo generato
-
r è la lunghezza del testo di riferimento più vicino
Questa penalità evita che traduzioni troppo brevi ricevano punteggi sproporzionatamente alti.
Tieni presente che questa è una spiegazione semplificata della formula del punteggio BLEU. Il calcolo effettivo potrebbe comportare ulteriori tecniche di livellamento o modifiche per variazioni specifiche di BLEU utilizzate in diversi contesti.
Interpretazione
Il punteggio BLEU varia da 0 a 1, dove 1 indica una perfetta corrispondenza tra il testo generato e il/i testo/i di riferimento. Punteggi BLEU più alti generalmente suggeriscono una migliore qualità della traduzione, ma è essenziale considerare i suoi limiti, come non tenere conto del significato semantico o della fluidità.
Il punteggio BLEU non è una misura assoluta e confrontare i punteggi BLEU tra passaggi, lingue o anche nella stessa lingua con numeri diversi di traduzioni di riferimento (più traduzioni, maggiore è la probabilità che corrispondano agli n-grammi candidati) non è accurato.
La seguente interpretazione, tuttavia, può essere utilizzata per avere un'idea approssimativa della qualità delle traduzioni:
BLUE | Interpretazione |
---|---|
﹤0,1 | Quasi inutile |
0,1-0,19 | Difficile capirne il succo |
0,2-0,29 | Il concetto è chiaro, ma presenta errori grammaticali significativi |
0,3-0,39 | Traduzioni da comprensibili a buone |
0,4-0,49 | Traduzioni di alta qualità |
0,5-0,59 | Traduzioni di altissima qualità, adeguate e fluenti |
≥0,6 | Qualità spesso migliore di quella umana |
Vale la pena notare che BLEU è solo uno dei numerosi parametri utilizzati per valutare la traduzione automatica e la generazione di testo, ed è spesso utilizzato insieme ad altri metodi di valutazione per una valutazione più completa delle prestazioni del modello.