คำนิยาม
BLEU (BiLingual Evalue Understudy) เป็นหน่วยเมตริกที่ใช้ในการประมวลผลภาษาธรรมชาติ (NLP) และการแปลด้วยคอมพิวเตอร์เพื่อประเมินคุณภาพของข้อความที่สร้างขึ้นเทียบกับ การแปลอ้างอิงคุณภาพสูงหนึ่งรายการขึ้นไป โดยจะวัดว่าข้อความที่เครื่องสร้างขึ้นมีความคล้ายคลึงกับข้อความอ้างอิงที่มนุษย์สร้างขึ้นตั้งแต่หนึ่งข้อความขึ้นไป
BLEU ทำงานโดยการเปรียบเทียบ n-gram (ลำดับของ n คำที่ต่อเนื่องกัน) ระหว่างข้อความที่สร้างขึ้นและข้อความอ้างอิง โดยจะคำนวณความแม่นยำ โดยพิจารณาว่ามี n-grams ในข้อความที่สร้างขึ้นจำนวนเท่าใดที่ตรงกับข้อความในข้อความอ้างอิง จากนั้นคะแนนความแม่นยำจะได้รับการแก้ไขโดยการปรับความสั้นเพื่อหลีกเลี่ยงการเลือกใช้คำแปลที่สั้นกว่า
คะแนน BLEU เป็นที่ทราบกันดีว่ามีความสัมพันธ์ที่ดีกับการตัดสินของมนุษย์เกี่ยวกับคุณภาพการแปล
สูตรการคำนวณคะแนน BLEU เกี่ยวข้องกับความแม่นยำและโทษความสั้น ต่อไปนี้เป็นสูตรแบบง่าย:
ที่ไหน
-
BP คือการปรับความสั้นเพื่อพิจารณาความยาวของข้อความที่สร้างขึ้นเมื่อเปรียบเทียบกับข้อความอ้างอิง
-
n คือลำดับ n-gram สูงสุดที่พิจารณา (ปกติคือ 4)
-
P_i คือความแม่นยำของ i-gram ระหว่างข้อความที่สร้างขึ้นและข้อความอ้างอิง
ความแม่นยำ p_i สำหรับแต่ละ i-gram คำนวณโดยการหารจำนวน i-gram ที่ตรงกันในข้อความที่สร้างขึ้นด้วยจำนวน i-gram ทั้งหมดในข้อความที่สร้างขึ้น ค่าความแม่นยำนี้จะถูกคูณเข้าด้วยกันสำหรับลำดับ i-gram ทั้งหมด จากนั้นยกกำลังเป็นส่วนกลับของ n (ลำดับ n-gram สูงสุด)
การลงโทษความสั้น (BP) จะลงโทษการแปลที่สั้นกว่าโดยการเปรียบเทียบความยาวของข้อความที่สร้างขึ้นกับข้อความอ้างอิงที่ใกล้เคียงที่สุดในแง่ของความยาว คำนวณดังนี้:
ที่ไหน
-
c คือความยาวของข้อความที่สร้างขึ้น
-
r คือความยาวของข้อความอ้างอิงที่ใกล้เคียงที่สุด
บทลงโทษนี้จะป้องกันไม่ให้การแปลที่สั้นเกินไปไม่ได้รับคะแนนสูงอย่างไม่เป็นสัดส่วน
โปรดทราบว่านี่เป็นคำอธิบายแบบง่ายของสูตรคะแนน BLEU การคำนวณจริงอาจเกี่ยวข้องกับเทคนิคการปรับให้เรียบเพิ่มเติมหรือการปรับเปลี่ยนสำหรับรูปแบบเฉพาะของ BLEU ที่ใช้ในบริบทที่ต่างกัน
การตีความ
คะแนน BLEU มีตั้งแต่ 0 ถึง 1 โดยที่ 1 หมายถึงการจับคู่ที่สมบูรณ์แบบระหว่างข้อความที่สร้างขึ้นและข้อความอ้างอิง โดยทั่วไปคะแนน BLEU ที่สูงกว่าบ่งบอกถึงคุณภาพการแปลที่ดีขึ้น แต่จำเป็นต้องคำนึงถึงข้อจำกัดต่างๆ เช่น การไม่คำนึงถึงความหมายเชิงความหมายหรือความคล่อง
คะแนน BLEU ไม่ใช่การวัดผลที่สมบูรณ์ และการเปรียบเทียบคะแนน BLEU ระหว่างข้อความ ภาษา หรือแม้แต่ภาษาเดียวกันกับจำนวนคำแปลอ้างอิงที่แตกต่างกัน (ยิ่งคำแปลมากเท่าใด มีแนวโน้มที่จะตรงกับ n-grams ของผู้สมัครมากขึ้นเท่านั้น) ก็ไม่ถูกต้อง
อย่างไรก็ตาม การตีความ ต่อไปนี้สามารถใช้เพื่อรับแนวคิดคร่าวๆ ของคุณภาพการแปล:
<ตาราง>
<หัว>
เบลอ การตีความ</หัว>
﹤0.1 แทบไม่มีประโยชน์ 0.1-0.19 เข้าใจความหมายได้ยาก 0.2-0.29 ส่วนสำคัญชัดเจน แต่มีข้อผิดพลาดทางไวยากรณ์ที่สำคัญ 0.3-0.39 คำแปลที่ดีสามารถเข้าใจได้ 0.4-0.49 คำแปลคุณภาพสูง 0.5-0.59 การแปลมีคุณภาพสูง เพียงพอ และคล่องแคล่ว ≥0.6 คุณภาพมักจะดีกว่ามนุษย์</ตาราง>
เป็นที่น่าสังเกตว่า BLEU เป็นเพียงหนึ่งในหลายตัวชี้วัดที่ใช้ในการประเมินการแปลด้วยคอมพิวเตอร์และการสร้างข้อความ และมักจะใช้ร่วมกับวิธีการประเมินอื่นๆ เพื่อการประเมินประสิทธิภาพของแบบจำลองที่ครอบคลุมมากขึ้น