Memahami Skor BLEU di NLP: Mengevaluasi Kualitas Terjemahan

Diperbarui pada September 06, 2024 3 Menit Baca

Definisi

BLEU (BiLingual Evaluation Understudy), adalah metrik yang digunakan dalam pemrosesan bahasa alami (NLP) dan terjemahan mesin untuk mengevaluasi kualitas teks yang dihasilkan terhadap satu atau lebih terjemahan referensi berkualitas tinggi. Ini mengukur seberapa mirip teks yang dihasilkan mesin dengan satu atau lebih teks referensi yang dibuat oleh manusia.

BLEU bekerja dengan membandingkan n-gram (urutan n kata berurutan) antara teks yang dihasilkan dan teks referensi. Ini menghitung presisi, dengan mempertimbangkan berapa banyak n-gram dalam teks yang dihasilkan cocok dengan teks referensi. Skor presisi kemudian dimodifikasi dengan penalti singkatnya untuk menghindari terjemahan yang lebih pendek.

Skor BLEU diketahui berkorelasi baik dengan penilaian manusia terhadap kualitas terjemahan.

Rumus penghitungan skor BLEU melibatkan presisi dan keringkasan penalti. Berikut versi rumus yang disederhanakan:

Di mana

BP adalah hukuman singkatnya untuk memperhitungkan panjang teks yang dihasilkan dibandingkan dengan teks referensi.
n adalah urutan n-gram maksimum yang dipertimbangkan (biasanya 4).
P_i adalah ketepatan i-gram antara teks yang dihasilkan dan teks referensi.

Presisi p_i untuk setiap i-gram dihitung dengan membagi jumlah i-gram yang cocok dalam teks yang dihasilkan dengan jumlah total i-gram dalam teks yang dihasilkan. Nilai presisi ini dikalikan untuk semua orde i-gram dan kemudian dipangkatkan dengan kebalikan dari n (orde n-gram maksimum).

Penalti singkat (BP) memberikan penalti pada terjemahan yang lebih pendek dengan membandingkan panjang teks yang dihasilkan dengan teks referensi terdekat dalam hal panjangnya. Ini dihitung sebagai:

Di mana

c adalah panjang teks yang dihasilkan
r adalah panjang teks referensi terdekat

Hukuman ini mencegah terjemahan yang terlalu pendek menerima skor tinggi yang tidak proporsional.

Perlu diingat bahwa ini adalah penjelasan sederhana dari rumus skor BLEU. Perhitungan sebenarnya mungkin melibatkan teknik pemulusan tambahan atau modifikasi untuk variasi BLEU tertentu yang digunakan dalam konteks berbeda.

Interpretasi

Skor BLEU berkisar antara 0 hingga 1, dimana 1 menunjukkan kecocokan sempurna antara teks yang dihasilkan dan teks referensi. Skor BLEU yang lebih tinggi umumnya menunjukkan kualitas terjemahan yang lebih baik, namun penting untuk mempertimbangkan keterbatasannya, seperti tidak memperhitungkan makna semantik atau kefasihan.

Skor BLEU bukanlah ukuran mutlak, dan membandingkan skor BLEU antar bagian, bahasa, atau bahkan dalam bahasa yang sama dengan jumlah referensi terjemahan yang berbeda (semakin banyak terjemahan, semakin besar kemungkinan kecocokan dengan kandidat n-gram) tidaklah akurat.

Namun, interpretasi berikut dapat digunakan untuk mendapatkan gambaran kasar kualitas terjemahan:

BLEU Interpretasi ﹤0,1 Hampir tidak berguna 0,1-0,19 Sulit untuk memahami intinya 0,2-0,29 Intinya jelas, tetapi terdapat kesalahan tata bahasa yang signifikan 0,3-0,39 Dapat dimengerti hingga terjemahannya bagus 0,4-0,49 Terjemahan berkualitas tinggi 0,5-0,59 Terjemahan sangat berkualitas tinggi, memadai, dan lancar ≥0,6 Kualitas sering kali lebih baik daripada manusia

Perlu diperhatikan bahwa BLEU hanyalah salah satu dari beberapa metrik yang digunakan untuk mengevaluasi terjemahan mesin dan pembuatan teks, dan sering kali digunakan bersama metode evaluasi lainnya untuk penilaian performa model yang lebih komprehensif.