การฝึกอบรมย้อนกลับเพื่อพยาบาลคำสาปผกผัน

การฝึกอบรมย้อนกลับเพื่อพยาบาลคำสาปผกผัน

ลิงก์ Arxiv

20 มีนาคม 2024

คำสาปพลิกกลับ

โมเดลภาษาขนาดใหญ่ (LLM) เช่น GPT-4 และ Llama-2 ได้แสดงให้เห็นถึงความสามารถที่น่าประทับใจในการทำความเข้าใจ และสร้างข้อความที่เหมือนมนุษย์ซึ่งครอบคลุมความรู้อันหลากหลาย อย่างไรก็ตาม พวกเขาล้มเหลวในงานที่ดูตรงไปตรงมา: การย้อนกลับข้อเท็จจริงที่เรียนรู้ ข้อจำกัดนี้เรียกว่า "คำสาปการกลับตัว" หมายความว่า LLM ไม่สามารถอนุมานได้ว่า "B เป็นคุณลักษณะของ A" จากการเรียนรู้ "A มีคุณสมบัติ B" ซึ่งเป็นทักษะการใช้เหตุผลพื้นฐานที่แม้แต่เด็ก ๆ ก็มี บทความนี้แนะนำ "การฝึกอบรมแบบย้อนกลับ" ซึ่งเป็นวิธีการใหม่ในการจัดการกับความท้าทายนี้โดยใช้ประโยชน์จากแนวทางการฝึกอบรมแบบสองทิศทางเพื่อเพิ่มความเข้าใจในข้อเท็จจริงของแบบจำลองทั้งในรูปแบบไปข้างหน้าและย้อนกลับ

ต้นกำเนิดของคำสาปผกผัน

ปัญหาเกิดขึ้นจากแนวทางการฝึกอบรมขั้นพื้นฐานของ LLM ซึ่งโดยทั่วไปเกี่ยวข้องกับ การเรียนรู้แบบถอยอัตโนมัติจากซ้ายไปขวา วิธีการนี้ไม่ได้สอนแบบจำลองให้เข้าใจหรือสร้างข้อมูลในลำดับย้อนกลับโดยเนื้อแท้ เมื่อพิจารณาถึงลักษณะของการกระจายข้อมูลตามกฎของ Zipf ข้อเท็จจริงหลายประการจึงถูกกล่าวถึงในทิศทางเดียวเท่านั้น ซึ่งทำให้ปัญหานี้รุนแรงขึ้น "คำสาปผกผัน" จำกัดความเข้าใจของ LLM เกี่ยวกับความสัมพันธ์และความเท่าเทียมกันในข้อความ ซึ่งถือเป็นข้อบกพร่องที่สำคัญในความสามารถในการให้เหตุผล

เอาชนะคำสาปผกผันด้วยการฝึกแบบย้อนกลับ

โซลูชันที่นำเสนอ ซึ่งก็คือ Reverse Training จะเพิ่มข้อมูลการฝึกที่มีอยู่เป็นสองเท่าโดยการรวมสตริงการฝึกทั้งเวอร์ชันดั้งเดิมและเวอร์ชันย้อนกลับ กระบวนการกลับรายการจะต้องระมัดระวังที่จะไม่เปลี่ยนแปลงสตริงย่อยบางอย่าง เช่น ชื่อเอนทิตี โดยคงลำดับดั้งเดิมไว้เพื่อรักษาบริบท วิธีนี้คล้ายกับการแนะนำภาษาที่สองเพื่อให้ LLM เรียนรู้ ช่วยเพิ่มความสามารถของโมเดลในการประมวลผลและสร้างข้อมูลในทั้งสองทิศทางได้อย่างมาก

ทดสอบวิธีการฝึกแบบย้อนกลับ

ผู้เขียนได้ทำการทดลองต่อไปนี้เพื่อทดสอบวิธีที่เสนอ:

1- งานย้อนกลับเชิงสัญลักษณ์: การทดสอบสภาพแวดล้อมที่มีการควบคุมซึ่งแสดงให้เห็นถึงความสามารถของวิธีการในการสรุปและใช้ความสัมพันธ์แบบย้อนกลับ

2- การย้อนกลับงานชีวประวัติ: การใช้ชุดข้อมูลชีวประวัติเพื่อประเมินประสิทธิภาพในการสร้างชื่อบุคคลจากรายละเอียดที่ให้ไว้ในทางกลับกัน

3- การกลับรายการความรู้ในโลกแห่งความเป็นจริง: การประเมินประสิทธิภาพของวิธีการในสถานการณ์จริง รวมถึงการกลับรายการข้อเท็จจริงเกี่ยวกับคนดังและความสัมพันธ์ของทั้งคู่

4- การปรับแต่งข้อเท็จจริงที่สมมติขึ้น: การทดสอบความสามารถในการเรียนรู้ของแบบจำลองจากข้อเท็จจริงที่สมมติขึ้นใหม่ที่เพิ่งเปิดตัวและกลับรายการ

ในการทดลองเหล่านี้ การฝึกย้อนกลับไม่เพียงแต่บรรเทาคำสาปผกผันเท่านั้น แต่ในบางกรณีก็กำจัดมันออกไปโดยสิ้นเชิง วิธีการนี้ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพโดยเฉพาะอย่างยิ่งเมื่อชื่อเอนทิตีถูกเก็บรักษาไว้ในลำดับเดิมในระหว่างกระบวนการกลับรายการ โดยเน้นถึงความสำคัญของการรักษาจุดยึดตามบริบทบางอย่าง

ผลกระทบและทิศทางในอนาคต

ความสำเร็จของ Reverse Training ในการจัดการกับ Reversal Curse ได้เปิดช่องทางใหม่สำหรับวิธีการฝึกอบรม LLM ด้วยการเพิ่มความเข้าใจของแบบจำลองเกี่ยวกับความสัมพันธ์ซึ่งกันและกันและความเท่าเทียมกันในข้อความ แนวทางนี้เปิดประตูสู่ความสามารถในการให้เหตุผลที่ซับซ้อนมากขึ้น การวิจัยในอนาคตอาจสำรวจการปรับกระบวนการย้อนกลับให้เหมาะสมยิ่งขึ้น ศักยภาพในการบูรณาการการฝึกอบรมแบบย้อนกลับในสถาปัตยกรรมแบบจำลองภาษาอื่น และการประยุกต์ใช้วิธีการนี้ในวงกว้างในการทำความเข้าใจภาษาธรรมชาติและงานการสร้าง

Code Labs Academy © 2024 สงวนลิขสิทธิ์.