Comprendere il punteggio BLEU nella PNL: valutazione della qualità della traduzione

Aggiornato il September 24, 2024 3 min di lettura

Definizione

BLEU (BiLingual Evaluation Understudy), è una metrica utilizzata nell'elaborazione del linguaggio naturale (NLP) e nella traduzione automatica per valutare la qualità del testo generato rispetto a una o più traduzioni di riferimento di alta qualità. Misura quanto un testo generato da una macchina sia simile a uno o più testi di riferimento generati dall’uomo.

BLEU funziona confrontando n-grammi (sequenze di n parole consecutive) tra il testo generato e i testi di riferimento. Calcola la precisione, considerando quanti n-grammi nel testo generato corrispondono a quelli nei testi di riferimento. Il punteggio di precisione viene poi modificato da una penalità di brevità per evitare di favorire traduzioni più brevi.

È noto che il punteggio BLEU è ben correlato al giudizio umano sulla qualità della traduzione.

La formula per il calcolo del punteggio BLEU prevede precisione e penalità di brevità. Ecco una versione semplificata della formula:

Dove

BP è la penalità di brevità per tenere conto della lunghezza del testo generato rispetto al/i testo/i di riferimento.
n è l'ordine massimo di n grammi considerato (normalmente 4).
P_i è la precisione dell'i-gramma tra il testo generato e il/i testo/i di riferimento.

La precisione p_i per ciascun i-gram viene calcolata dividendo il numero di i-gram corrispondenti nel testo generato per il numero totale di i-gram nel testo generato. Questo valore di precisione viene moltiplicato insieme per tutti gli ordini di i-grammi e quindi elevato alla potenza del reciproco di n (l'ordine massimo di n-grammi).

La penalità di brevità (BP) penalizza le traduzioni più brevi confrontando la lunghezza del testo generato con il testo di riferimento più vicino in termini di lunghezza. Viene calcolato come:

Dove

c è la lunghezza del testo generato
r è la lunghezza del testo di riferimento più vicino

Questa penalità evita che traduzioni troppo brevi ricevano punteggi sproporzionatamente alti.

Tieni presente che questa è una spiegazione semplificata della formula del punteggio BLEU. Il calcolo effettivo potrebbe comportare ulteriori tecniche di livellamento o modifiche per variazioni specifiche di BLEU utilizzate in diversi contesti.

##Interpretazione

Il punteggio BLEU varia da 0 a 1, dove 1 indica una perfetta corrispondenza tra il testo generato e il/i testo/i di riferimento. Punteggi BLEU più alti generalmente suggeriscono una migliore qualità della traduzione, ma è essenziale considerare i suoi limiti, come non tenere conto del significato semantico o della fluidità.

Il punteggio BLEU non è una misura assoluta e confrontare i punteggi BLEU tra passaggi, lingue o anche nella stessa lingua con numeri diversi di traduzioni di riferimento (più traduzioni, maggiore è la probabilità che corrispondano agli n-grammi candidati) non è accurato.

La seguente interpretazione, tuttavia, può essere utilizzata per avere un'idea approssimativa della qualità delle traduzioni:

BLEU Interpretazione ﹤0,1 Quasi inutile 0,1-0,19 Difficile capirne il succo 0,2-0,29 Il concetto è chiaro, ma presenta errori grammaticali significativi 0,3-0,39 Traduzioni da comprensibili a buone 0,4-0,49 Traduzioni di alta qualità 0,5-0,59 Traduzioni di altissima qualità, adeguate e fluenti ≥0,6 Qualità spesso migliore di quella umana

Vale la pena notare che BLEU è solo uno dei numerosi parametri utilizzati per valutare la traduzione automatica e la generazione di testo, ed è spesso utilizzato insieme ad altri metodi di valutazione per una valutazione più completa delle prestazioni del modello.