Comprendere il punteggio BLEU nella PNL: valutazione della qualità della traduzione
Aggiornato su September 24, 2024 3 minuti a leggere

Definizione
BLEU (BiLingual Evaluation Understudy), è una metrica utilizzata nell’elaborazione del linguaggio naturale (NLP) e nella traduzione automatica per valutare la qualità del testo generato rispetto a una o più traduzioni di riferimento di alta qualità. Misura quanto un testo generato da una macchina sia simile a uno o più testi di riferimento generati dall’uomo.
BLEU funziona confrontando n-grammi (sequenze di n parole consecutive) tra il testo generato e i testi di riferimento. Calcola la precisione, considerando quanti n-grammi nel testo generato corrispondono a quelli nei testi di riferimento. Il punteggio di precisione viene poi modificato da una penalità di brevità per evitare di favorire traduzioni più brevi.
È noto che il punteggio BLEU è ben correlato al giudizio umano sulla qualità della traduzione.
La formula per il calcolo del punteggio BLEU prevede precisione e penalità di brevità. Ecco una versione semplificata della formula:
Dove
-
BP è la penalità di brevità per tenere conto della lunghezza del testo generato rispetto al/i testo/i di riferimento.
-
n è l’ordine massimo di n grammi considerato (normalmente 4).
-
P_i è la precisione dell’i-gramma tra il testo generato e il/i testo/i di riferimento.
La precisione p_i per ciascun i-gram viene calcolata dividendo il numero di i-gram corrispondenti nel testo generato per il numero totale di i-gram nel testo generato. Questo valore di precisione viene moltiplicato insieme per tutti gli ordini di i-grammi e quindi elevato alla potenza del reciproco di n (l’ordine massimo di n-grammi).
La penalità di brevità (BP) penalizza le traduzioni più brevi confrontando la lunghezza del testo generato con il testo di riferimento più vicino in termini di lunghezza. Viene calcolato come:
Dove
-
c è la lunghezza del testo generato
-
r è la lunghezza del testo di riferimento più vicino
Questa penalità evita che traduzioni troppo brevi ricevano punteggi sproporzionatamente alti.
Tieni presente che questa è una spiegazione semplificata della formula del punteggio BLEU. Il calcolo effettivo potrebbe comportare ulteriori tecniche di livellamento o modifiche per variazioni specifiche di BLEU utilizzate in diversi contesti.
##Interpretazione
Il punteggio BLEU varia da 0 a 1, dove 1 indica una perfetta corrispondenza tra il testo generato e il/i testo/i di riferimento. Punteggi BLEU più alti generalmente suggeriscono una migliore qualità della traduzione, ma è essenziale considerare i suoi limiti, come non tenere conto del significato semantico o della fluidità.
Il punteggio BLEU non è una misura assoluta e confrontare i punteggi BLEU tra passaggi, lingue o anche nella stessa lingua con numeri diversi di traduzioni di riferimento (più traduzioni, maggiore è la probabilità che corrispondano agli n-grammi candidati) non è accurato.
La seguente interpretazione, tuttavia, può essere utilizzata per avere un’idea approssimativa della qualità delle traduzioni:
Vale la pena notare che BLEU è solo uno dei numerosi parametri utilizzati per valutare la traduzione automatica e la generazione di testo, ed è spesso utilizzato insieme ad altri metodi di valutazione per una valutazione più completa delle prestazioni del modello.