Tanım
BLEU (BiLingual Evaluation Understudy), doğal dil işlemede (NLP) ve makine çevirisinde, oluşturulan metnin kalitesini değerlendirmek için kullanılan bir ölçümdür. bir veya daha fazla yüksek kaliteli referans çevirisi. Makine tarafından oluşturulan bir metnin, insan tarafından oluşturulan bir veya daha fazla referans metnine ne kadar benzer olduğunu ölçer.
BLEU, oluşturulan metin ile referans metinler arasındaki n gramları (ardışık n kelime dizisini) karşılaştırarak çalışır. Oluşturulan metindeki kaç n-gramın referans metin(ler)indekilerle eşleştiğini dikkate alarak kesinliği hesaplar. Kesinlik puanı daha sonra kısa çevirilerin tercih edilmesini önlemek için kısalık cezasıyla değiştirilir.
BLEU puanının çeviri kalitesine ilişkin insan yargısıyla iyi bir şekilde ilişkili olduğu bilinmektedir.
BLEU puanını hesaplama formülü kesinlik ve kısalık cezasını içerir. İşte formülün basitleştirilmiş bir versiyonu:
Nerede
-
KB, referans metin(ler)le karşılaştırıldığında oluşturulan metnin uzunluğunu hesaba katan kısalık cezasıdır.
-
n, dikkate alınan maksimum n-gram sırasıdır (genellikle 4).
-
P_i, oluşturulan metin ile referans metin(ler)i arasındaki i-gramın kesinliğidir.
Her i-gram için p_i kesinliği, oluşturulan metindeki eşleşen i-gram sayısının, oluşturulan metindeki toplam i-gram sayısına bölünmesiyle hesaplanır. Bu kesinlik değeri, tüm i-gram sıraları için birlikte çarpılır ve ardından n'nin (maksimum n-gram sırası) tersinin kuvvetine yükseltilir.
Kısalık cezası (BP), oluşturulan metnin uzunluğunu uzunluk açısından en yakın referans metniyle karşılaştırarak daha kısa çevirileri cezalandırır. Şu şekilde hesaplanır:
Nerede
-
c, oluşturulan metnin uzunluğudur
-
r, en yakın referans metninin uzunluğudur
Bu ceza, aşırı kısa çevirilerin orantısız derecede yüksek puanlar almasını engeller.
Bunun BLEU puanı formülünün basitleştirilmiş bir açıklaması olduğunu unutmayın. Gerçek hesaplama, farklı bağlamlarda kullanılan BLEU'nun belirli varyasyonları için ek yumuşatma teknikleri veya modifikasyonlar içerebilir.
Tercüme
BLEU puanı 0 ila 1 arasında değişir; burada 1, oluşturulan metin ile referans metin(ler)i arasında mükemmel bir eşleşme olduğunu gösterir. Daha yüksek BLEU puanları genellikle daha iyi çeviri kalitesi anlamına gelir, ancak anlamsal anlam veya akıcılığın hesaba katılmaması gibi sınırlamalarının dikkate alınması önemlidir.
BLEU puanı mutlak bir ölçüm değildir ve BLEU puanlarını pasajlar, diller ve hatta aynı dildeki farklı sayıda referans çeviriyle karşılaştırmak (ne kadar çok çeviri olursa, aday n-gramlarıyla eşleşme olasılığı o kadar artar) doğru değildir.
Bununla birlikte, aşağıdaki yorum, kabaca bir fikir çevirilerin kalitesi:
BLEU'nun makine çevirisini ve metin oluşturmayı değerlendirmek için kullanılan çeşitli ölçümlerden yalnızca biri olduğunu ve model performansının daha kapsamlı bir değerlendirmesi için genellikle diğer değerlendirme yöntemleriyle birlikte kullanıldığını belirtmekte fayda var.