Sự định nghĩa
BLEU (BiLingual Evaluation Understudy), là số liệu được sử dụng trong xử lý ngôn ngữ tự nhiên (NLP) và dịch máy để đánh giá chất lượng của văn bản được tạo dựa trên một hoặc nhiều bản dịch tham khảo chất lượng cao. Nó đo mức độ giống nhau của một văn bản do máy tạo ra với một hoặc nhiều văn bản tham chiếu do con người tạo ra.
BLEU hoạt động bằng cách so sánh n-gram (chuỗi n từ liên tiếp) giữa văn bản được tạo và văn bản tham chiếu. Nó tính toán độ chính xác, xem xét có bao nhiêu n-gram trong văn bản được tạo khớp với những n-gram trong (các) văn bản tham chiếu. Sau đó, điểm chính xác sẽ được sửa đổi bằng hình phạt ngắn gọn để tránh ưu tiên các bản dịch ngắn hơn.
Điểm BLEU được biết là có mối tương quan tốt với đánh giá của con người về chất lượng dịch thuật.
Công thức tính điểm BLEU liên quan đến độ chính xác và hình phạt ngắn gọn. Đây là phiên bản đơn giản của công thức:
Ở đâu
-
BP là hình phạt về tính ngắn gọn để tính độ dài của văn bản được tạo ra so với (các) văn bản tham chiếu.
-
n là thứ tự n-gram tối đa được xem xét (thường là 4).
-
P_i là độ chính xác của i-gram giữa văn bản được tạo ra và (các) văn bản tham chiếu.
Độ chính xác p_i cho mỗi i-gram được tính bằng cách chia số lượng i-gram phù hợp trong văn bản được tạo cho tổng số i-gram trong văn bản được tạo. Giá trị chính xác này được nhân với nhau cho tất cả các đơn hàng i-gram và sau đó được nâng lên lũy thừa nghịch đảo của n (thứ tự n-gram tối đa).
Hình phạt ngắn gọn (BP) trừng phạt các bản dịch ngắn hơn bằng cách so sánh độ dài của văn bản được tạo với văn bản tham chiếu gần nhất về độ dài. Nó được tính như sau:
Ở đâu
-
c là độ dài của văn bản được tạo
-
r là độ dài của văn bản tham chiếu gần nhất
Hình phạt này ngăn cản những bản dịch quá ngắn nhận được điểm cao không tương xứng.
Hãy nhớ rằng đây là lời giải thích đơn giản về công thức tính điểm BLEU. Việc tính toán thực tế có thể liên quan đến các kỹ thuật làm mịn bổ sung hoặc các sửa đổi cho các biến thể cụ thể của BLEU được sử dụng trong các bối cảnh khác nhau.
Phiên dịch
Điểm BLEU dao động từ 0 đến 1, trong đó 1 biểu thị sự trùng khớp hoàn hảo giữa văn bản được tạo và (các) văn bản tham chiếu. Điểm BLEU cao hơn thường gợi ý chất lượng dịch tốt hơn, nhưng điều cần thiết là phải xem xét các hạn chế của nó, chẳng hạn như không tính đến ý nghĩa ngữ nghĩa hoặc tính trôi chảy.
Điểm BLEU không phải là thước đo tuyệt đối và việc so sánh điểm BLEU giữa các đoạn văn, ngôn ngữ hoặc thậm chí trong cùng một ngôn ngữ với số lượng bản dịch tham chiếu khác nhau (càng nhiều bản dịch thì càng có nhiều khả năng khớp với n-gram ứng viên) là không chính xác.
Tuy nhiên, cách giải thích sau đây có thể được sử dụng để có ý tưởng sơ bộ về chất lượng của bản dịch:
<bàn>
<đầu>
BLEU Giải thích<người>
﹤0,1 Hầu như vô dụng 0,1-0,19 Khó nắm được ý chính 0,2-0,29 Nội dung rõ ràng nhưng mắc lỗi ngữ pháp đáng kể 0,3-0,39 Dễ hiểu đối với bản dịch tốt 0,4-0,49 Bản dịch chất lượng cao 0,5-0,59 Bản dịch chất lượng rất cao, đầy đủ và trôi chảy ≥0,6 Chất lượng thường tốt hơn con người</bảng>
Cần lưu ý rằng BLEU chỉ là một trong nhiều số liệu được sử dụng để đánh giá dịch máy và tạo văn bản, đồng thời nó thường được sử dụng cùng với các phương pháp đánh giá khác để đánh giá toàn diện hơn về hiệu suất của mô hình.