NLP-də BLEU Hesabını Anlamaq: Tərcümə keyfiyyətinin qiymətləndirilməsi

BLEU Skoru
Təbii Dil Emalı
Maşın Tərcümə Qiymətləndirməsi
NLP-də BLEU Hesabını Anlamaq: Tərcümə keyfiyyətinin qiymətləndirilməsi cover image

Tərif

BLEU (BiLingual Eqiymətləndirmə Understudy), yaradılan mətnin keyfiyyətini qiymətləndirmək üçün təbii dil emalında (NLP) və maşın tərcüməsində istifadə olunan metrikdir. bir və ya daha çox yüksək keyfiyyətli istinad tərcümələri. Bu, maşın tərəfindən yaradılan mətnin bir və ya daha çox insan tərəfindən yaradılan istinad mətninə nə qədər oxşar olduğunu ölçür.

BLEU yaradılan mətn və istinad mətnləri arasında n-qramları (ardıcıl n söz ardıcıllığı) müqayisə etməklə işləyir. O, yaradılan mətndə neçə n-qramın istinad mətn(lər)indəkilərə uyğun olduğunu nəzərə alaraq dəqiqliyi hesablayır. Daha qısa tərcümələrə üstünlük verməmək üçün dəqiqlik balı daha sonra qısalıq cəzası ilə dəyişdirilir.

BLEU balının tərcümə keyfiyyəti ilə bağlı insan mülahizələri ilə yaxşı əlaqəli olduğu bilinir.

BLEU balını hesablamaq üçün düstur dəqiqlik və qısalıq cəzasını ehtiva edir. Budur formulun sadələşdirilmiş versiyası:

Harada

  • BP, istinad mətn(lər)i ilə müqayisədə yaradılan mətnin uzunluğunu nəzərə alan qısalıq cəzasıdır.

  • n hesab edilən maksimum n-qram sırasıdır (adətən 4).

  • P_i yaradılan mətn və istinad mətn(lər) arasındakı i-qramın dəqiqliyidir.

Hər bir i-qram üçün p_i dəqiqliyi yaradılan mətndə uyğun gələn i-qramların sayını yaradılan mətndəki i-qramların ümumi sayına bölmək yolu ilə hesablanır. Bu dəqiqlik dəyəri bütün i-qram sifarişləri üçün birlikdə vurulur və sonra n-in qarşılıqlı gücünə (maksimum n-qram sırası) qaldırılır.

Qısalıq cəzası (BP) yaradılan mətnin uzunluğunu uzunluq baxımından ən yaxın istinad mətni ilə müqayisə edərək daha qısa tərcümələri cəzalandırır. Bu kimi hesablanır:

Harada

  • c yaradılan mətnin uzunluğudur

  • r ən yaxın istinad mətninin uzunluğudur

Bu cəza həddindən artıq qısa tərcümələrin qeyri-mütənasib yüksək bal almasına mane olur.

Nəzərə alın ki, bu, BLEU bal düsturunun sadələşdirilmiş izahıdır. Faktiki hesablama müxtəlif kontekstlərdə istifadə edilən BLEU-nun xüsusi variasiyaları üçün əlavə hamarlaşdırma üsullarını və ya dəyişiklikləri əhatə edə bilər.

Təfsir

BLEU balı 0 ilə 1 arasında dəyişir, burada 1 yaradılan mətn və istinad mətn(lər) arasında mükəmməl uyğunluğu göstərir. Daha yüksək BLEU balları ümumiyyətlə daha yaxşı tərcümə keyfiyyətini təklif edir, lakin onun məhdudiyyətlərini nəzərə almaq vacibdir, məsələn, semantik məna və ya rəvanlığı nəzərə almamaq.

BLEU balı mütləq ölçü deyil və BLEU ballarını keçidlər, dillər və hətta eyni dildə müxtəlif sayda istinad tərcümələri ilə müqayisə etmək (nə qədər çox tərcümə olsa, namizədin n-qramlarına uyğun gəlmə ehtimalı daha yüksəkdir) dəqiq deyil.

Aşağıdakı interpretation, lakin [təxmini fikir] əldə etmək üçün istifadə edilə bilər(https://www.cs.cmu. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf) tərcümələrin keyfiyyəti:

<cədvəl>

<baş>

BLEU Tərcümə ﹤0.1 Demək olar ki, yararsızdır 0,1-0,19 Məsəfi başa düşmək çətindir 0,2-0,29 Məziyyət aydındır, lakin əhəmiyyətli qrammatik səhvlərə malikdir 0,3-0,39 Yaxşı tərcümələrə başa düşülür 0,4-0,49 Yüksək keyfiyyətli tərcümələr 0,5-0,59 Çox yüksək keyfiyyətli, adekvat və səlis tərcümələr ≥0,6 Keyfiyyət çox vaxt insanlardan daha yaxşıdır

Qeyd etmək lazımdır ki, BLEU maşın tərcüməsini və mətnin yaradılmasını qiymətləndirmək üçün istifadə olunan bir neçə ölçüdən yalnız biridir və o, model performansının daha əhatəli qiymətləndirilməsi üçün tez-tez digər qiymətləndirmə metodları ilə yanaşı istifadə olunur.


Career Services background pattern

Karyera Xidmətləri

Contact Section background image

Əlaqə saxlayaq

Code Labs Academy © 2024 Bütün hüquqlar qorunur.