การทำความเข้าใจคะแนน BLEU ใน NLP: การประเมินคุณภาพการแปล

อัปเดตบน September 03, 2024 1 นาทีอ่าน

คำนิยาม

BLEU (BiLingual Evalue Understudy) เป็นหน่วยเมตริกที่ใช้ในการประมวลผลภาษาธรรมชาติ (NLP) และการแปลด้วยคอมพิวเตอร์เพื่อประเมินคุณภาพของข้อความที่สร้างขึ้นเทียบกับ การแปลอ้างอิงคุณภาพสูงหนึ่งรายการขึ้นไป โดยจะวัดว่าข้อความที่เครื่องสร้างขึ้นมีความคล้ายคลึงกับข้อความอ้างอิงที่มนุษย์สร้างขึ้นตั้งแต่หนึ่งข้อความขึ้นไป

BLEU ทำงานโดยการเปรียบเทียบ n-gram (ลำดับของ n คำที่ต่อเนื่องกัน) ระหว่างข้อความที่สร้างขึ้นและข้อความอ้างอิง โดยจะคำนวณความแม่นยำ โดยพิจารณาว่ามี n-grams ในข้อความที่สร้างขึ้นจำนวนเท่าใดที่ตรงกับข้อความในข้อความอ้างอิง จากนั้นคะแนนความแม่นยำจะได้รับการแก้ไขโดยการปรับความสั้นเพื่อหลีกเลี่ยงการเลือกใช้คำแปลที่สั้นกว่า

คะแนน BLEU เป็นที่ทราบกันดีว่ามีความสัมพันธ์ที่ดีกับการตัดสินของมนุษย์เกี่ยวกับคุณภาพการแปล

สูตรการคำนวณคะแนน BLEU เกี่ยวข้องกับความแม่นยำและโทษความสั้น ต่อไปนี้เป็นสูตรแบบง่าย:

ที่ไหน

BP คือการปรับความสั้นเพื่อพิจารณาความยาวของข้อความที่สร้างขึ้นเมื่อเปรียบเทียบกับข้อความอ้างอิง
n คือลำดับ n-gram สูงสุดที่พิจารณา (ปกติคือ 4)
P_i คือความแม่นยำของ i-gram ระหว่างข้อความที่สร้างขึ้นและข้อความอ้างอิง

ความแม่นยำ p_i สำหรับแต่ละ i-gram คำนวณโดยการหารจำนวน i-gram ที่ตรงกันในข้อความที่สร้างขึ้นด้วยจำนวน i-gram ทั้งหมดในข้อความที่สร้างขึ้น ค่าความแม่นยำนี้จะถูกคูณเข้าด้วยกันสำหรับลำดับ i-gram ทั้งหมด จากนั้นยกกำลังเป็นส่วนกลับของ n (ลำดับ n-gram สูงสุด)

การลงโทษความสั้น (BP) จะลงโทษการแปลที่สั้นกว่าโดยการเปรียบเทียบความยาวของข้อความที่สร้างขึ้นกับข้อความอ้างอิงที่ใกล้เคียงที่สุดในแง่ของความยาว คำนวณดังนี้:

ที่ไหน

c คือความยาวของข้อความที่สร้างขึ้น
r คือความยาวของข้อความอ้างอิงที่ใกล้เคียงที่สุด

บทลงโทษนี้จะป้องกันไม่ให้การแปลที่สั้นเกินไปไม่ได้รับคะแนนสูงอย่างไม่เป็นสัดส่วน

โปรดทราบว่านี่เป็นคำอธิบายแบบง่ายของสูตรคะแนน BLEU การคำนวณจริงอาจเกี่ยวข้องกับเทคนิคการปรับให้เรียบเพิ่มเติมหรือการปรับเปลี่ยนสำหรับรูปแบบเฉพาะของ BLEU ที่ใช้ในบริบทที่ต่างกัน

การตีความ

คะแนน BLEU มีตั้งแต่ 0 ถึง 1 โดยที่ 1 หมายถึงการจับคู่ที่สมบูรณ์แบบระหว่างข้อความที่สร้างขึ้นและข้อความอ้างอิง โดยทั่วไปคะแนน BLEU ที่สูงกว่าบ่งบอกถึงคุณภาพการแปลที่ดีขึ้น แต่จำเป็นต้องคำนึงถึงข้อจำกัดต่างๆ เช่น การไม่คำนึงถึงความหมายเชิงความหมายหรือความคล่อง

คะแนน BLEU ไม่ใช่การวัดผลที่สมบูรณ์ และการเปรียบเทียบคะแนน BLEU ระหว่างข้อความ ภาษา หรือแม้แต่ภาษาเดียวกันกับจำนวนคำแปลอ้างอิงที่แตกต่างกัน (ยิ่งคำแปลมากเท่าใด มีแนวโน้มที่จะตรงกับ n-grams ของผู้สมัครมากขึ้นเท่านั้น) ก็ไม่ถูกต้อง

อย่างไรก็ตาม การตีความ ต่อไปนี้สามารถใช้เพื่อรับแนวคิดคร่าวๆ ของคุณภาพการแปล:

<ตาราง>

<หัว>

เบลอ การตีความ

</หัว>

﹤0.1 แทบไม่มีประโยชน์ 0.1-0.19 เข้าใจความหมายได้ยาก 0.2-0.29 ส่วนสำคัญชัดเจน แต่มีข้อผิดพลาดทางไวยากรณ์ที่สำคัญ 0.3-0.39 คำแปลที่ดีสามารถเข้าใจได้ 0.4-0.49 คำแปลคุณภาพสูง 0.5-0.59 การแปลมีคุณภาพสูง เพียงพอ และคล่องแคล่ว ≥0.6 คุณภาพมักจะดีกว่ามนุษย์

</ตาราง>

เป็นที่น่าสังเกตว่า BLEU เป็นเพียงหนึ่งในหลายตัวชี้วัดที่ใช้ในการประเมินการแปลด้วยคอมพิวเตอร์และการสร้างข้อความ และมักจะใช้ร่วมกับวิธีการประเมินอื่นๆ เพื่อการประเมินประสิทธิภาพของแบบจำลองที่ครอบคลุมมากขึ้น