โมเดลการแปลด้วยเครื่องตามลำดับต่อลำดับ

อัปเดตบน September 03, 2024 2 นาทีอ่าน

คุณเคยสงสัยหรือไม่ว่าเครื่องแปลภาษาทำงานอย่างไร? โค้ดเพียงไม่กี่บรรทัดก็เพียงพอที่จะสร้างเครื่องมือที่คล้ายกับ Google Translate, DeepL และอื่นๆ ในบทความนี้ เราจะแนะนำคุณตลอดขั้นตอนการสร้างแบบจำลองการแปลด้วยเครื่องตามลำดับ (seq2seq) ในตอนท้าย คุณจะสามารถเข้าใจวิธีการทำงาน และวิธีมีโมเดลการแปลที่ปรับใช้ได้

ทำความเข้าใจกับโมเดล Seq2Seq

เพื่อให้เข้าใจแนวคิดของโมเดล seq2seq เรามาเจาะลึกตัวอย่างกัน ลองนึกภาพคุณมีประโยคภาษาอังกฤษ:

"How are you?"

และคุณต้องการแปลเป็น Tamazight:

"Amek tettiliḍ?"

โมเดล seq2seq ประกอบด้วยตัวเข้ารหัสและตัวถอดรหัส ซึ่งทำงานร่วมกันเพื่อทำการแปลนี้

โปรแกรมเปลี่ยนไฟล์: โปรแกรมเปลี่ยนไฟล์จะใช้ประโยคต้นฉบับ “สบายดีไหม” และประมวลผลทีละคำ โดยจะเข้ารหัสข้อมูลเป็นเวกเตอร์ที่มีความยาวคงที่ที่เรียกว่า เวกเตอร์บริบท ในตัวอย่างของเรา ตัวเข้ารหัสจะวิเคราะห์แต่ละคำและสร้างการนำเสนอประโยคที่มีความหมาย
ตัวถอดรหัส: ตัวถอดรหัสจะได้รับเวกเตอร์บริบทจากตัวเข้ารหัส และเริ่มสร้างประโยคเป้าหมาย “Amek tettiliḍ?” โดยจะคำต่อคำโดยคำนึงถึงเวกเตอร์บริบทและคำที่สร้างไว้ก่อนหน้านี้ ตัวถอดรหัสเรียนรู้ที่จะสร้างการแปลที่ถูกต้องตามรูปแบบที่ค้นพบระหว่างการฝึก

Seq2Seq Schema

การเตรียมข้อมูล

ตอนนี้เรามีความเข้าใจเกี่ยวกับโมเดล seq2seq แล้ว เรามาพูดถึงการเตรียมข้อมูลโดยใช้ตัวอย่างเดียวกันกันดีกว่า

ในการฝึกโมเดลการแปลด้วยเครื่อง จำเป็นต้องมีคลังข้อมูลแบบคู่ขนาน ซึ่งประกอบด้วยคู่ประโยคที่จัดแนวทั้งในต้นฉบับ (ภาษาอังกฤษในกรณีของเรา) และภาษาเป้าหมาย (Tamazight) แหล่งข้อมูลหลายแห่ง เช่น Europarl และ UN Parallel Corpus ให้ข้อมูลหลายภาษาจำนวนมหาศาล

การแปลงโทเค็น: ขั้นตอนแรกในการเตรียมข้อมูลคือการแปลงโทเค็น เราแบ่งประโยคภาษาอังกฤษและ Tamazight ออกเป็นโทเค็นหรือคำแยกกัน เช่น ประโยคภาษาอังกฤษ “How are you?” จะถูกแปลงเป็น [‘How’, ‘are’, ‘you’, ’?’] และประโยค Tamazight “Amek tettiliḍ?” จะถูกโทเค็นเป็น [‘SOS’, ‘Amek’, ‘tettiliḍ’, ’?’, ‘EOS’] เราใช้ SOS และ EOS เพื่อระบุจุดเริ่มต้นและจุดสิ้นสุดของลำดับ
การทำความสะอาดและการทำให้เป็นมาตรฐาน: ต่อไป เราจะทำการล้างและทำให้ประโยคเป็นมาตรฐาน ซึ่งเกี่ยวข้องกับการลบอักขระ เครื่องหมายวรรคตอน หรือสัญลักษณ์พิเศษที่ไม่จำเป็นซึ่งอาจขัดขวางกระบวนการแปล ตัวอย่างเช่น เราอาจลบเครื่องหมายคำถามที่ส่วนท้ายของทั้งประโยคภาษาอังกฤษและ Tamazight เพื่อทำให้ข้อมูลการฝึกอบรมง่ายขึ้น

ขึ้นอยู่กับคุณลักษณะของภาษาต้นทางและภาษาเป้าหมาย อาจจำเป็นต้องมีขั้นตอนการประมวลผลล่วงหน้าเฉพาะภาษาเพิ่มเติม ตัวอย่างเช่น ในภาษาฝรั่งเศส เราอาจต้องจัดการกับอักขระพิเศษ เช่น สำเนียงหรือตัวกำกับเสียง

การสร้างคำศัพท์: เราสร้างคำศัพท์โดยรวบรวมคำที่ไม่ซ้ำใครจากทั้งประโยคต้นทางและประโยคเป้าหมาย จากนั้นแต่ละคำจะถูกกำหนดดัชนีหรือตัวระบุที่ไม่ซ้ำกัน ส่งผลให้สิ่งที่เราเรียกว่าแผนที่ฝังคำ ซึ่งจะใช้ในระหว่างกระบวนการฝึกอบรม:

6: "how"
330: "are"
537: "you"

ด้วยเหตุนี้ตัวอย่างโทเค็นของเราจะมีลักษณะดังนี้:

[6, 330, 537] # How Are You
[420, 775] # Amek tettiliḍ

การเสริมลำดับ: เพื่อให้แน่ใจว่าลำดับมีความยาวสม่ำเสมอ เราจะแพดประโยคด้วยโทเค็นพิเศษ (เช่น “PAD” หรือ 0) เพื่อให้ทุกประโยคมีความยาวเท่ากัน การแพดดิ้งเป็นสิ่งจำเป็นเนื่องจากโดยทั่วไปแล้วโครงข่ายประสาทเทียมคาดว่าจะได้รับอินพุตที่มีความยาวคงที่ ด้วยการเพิ่มโทเค็นการเติมที่ส่วนท้ายของประโยคที่สั้นกว่า เราจะสร้างลำดับที่มีความยาวเท่ากัน ซึ่งช่วยให้การฝึกอบรมมีประสิทธิภาพ ความยาวจะเป็นจำนวนคำของประโยคอินพุตที่ยาวที่สุด

ตัวอย่างเช่น การใช้ช่องว่างภายใน 13 กับโทเค็นอินพุตและเอาต์พุตของเรา จะให้ผลลัพธ์ดังต่อไปนี้:

[6, 330, 537, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # How Are You
[420, 775, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # Amek tettiliḍ

อบรมโมเดล

เมื่อข้อมูลที่เตรียมไว้แล้ว เราก็สามารถดำเนินการฝึกอบรมโมเดลการแปลด้วยเครื่องของเราได้ เราแบ่งข้อมูลออกเป็นชุดการฝึกอบรมและการตรวจสอบ ชุดการฝึกใช้เพื่ออัปเดตพารามิเตอร์ของโมเดลระหว่างการฝึก ในขณะที่ชุดการตรวจสอบช่วยให้เราตรวจสอบประสิทธิภาพของโมเดลและป้องกันไม่ให้มีการติดตั้งมากเกินไป

การฝึกอบรมโครงข่ายประสาทเทียม

ในระหว่างการฝึก เราป้อนโมเดลด้วยประโยคต้นฉบับ (ภาษาอังกฤษ) เป็นอินพุต และประโยคเป้าหมายที่เกี่ยวข้อง (Tamazight) เป็นเอาต์พุตที่ต้องการ แบบจำลองสร้างการคาดคะเนสำหรับประโยคเป้าหมาย ทีละคำ ตามลำดับอินพุต การคาดการณ์เหล่านี้จะถูกเปรียบเทียบกับลำดับเป้าหมายจริงโดยใช้ฟังก์ชันการสูญเสีย เช่น เอนโทรปีข้ามหมวดหมู่

Backpropagation และการอัปเดตพารามิเตอร์

ด้วยกระบวนการ backpropagation แบบจำลองจะคำนวณการไล่ระดับสีของการสูญเสียโดยคำนึงถึงพารามิเตอร์ การไล่ระดับสีเหล่านี้ระบุทิศทางและขนาดของการอัปเดตพารามิเตอร์ที่จำเป็นในการลดการสูญเสียให้เหลือน้อยที่สุด อัลกอริธึมการปรับให้เหมาะสม เช่น stochastic gradient descent (SGD) หรือ Adam ใช้การไล่ระดับสีเหล่านี้เพื่ออัปเดตพารามิเตอร์ของโมเดลซ้ำๆ ทำให้การคาดการณ์มีความแม่นยำมากขึ้นเมื่อเวลาผ่านไป

การฝึกอบรมซ้ำ

กระบวนการฝึกอบรมเกิดขึ้นซ้ำๆ ในหลายยุคสมัย ในแต่ละยุค โมเดลจะดูผ่านชุดข้อมูลการฝึกอบรมทั้งหมด อัปเดตพารามิเตอร์ และปรับแต่งความเข้าใจเกี่ยวกับรูปแบบการแปลอย่างละเอียด โดยการทำซ้ำขั้นตอนนี้ โมเดลจะมีความเชี่ยวชาญมากขึ้นในการสร้างการแปลที่แม่นยำ

การตรวจสอบและการประเมินผล

ตลอดการฝึกอบรม เราจะประเมินประสิทธิภาพของแบบจำลองในชุดการตรวจสอบความถูกต้องเป็นระยะ การประเมินนี้ช่วยให้เราติดตามความคืบหน้าของแบบจำลองและทำการปรับเปลี่ยนหากจำเป็น เราสามารถใช้ตัวชี้วัดเช่น BLEU (การศึกษาการประเมินสองภาษา) เพื่อประเมินคุณภาพการแปลและเปรียบเทียบกับการแปลอ้างอิง

การปรับใช้

เมื่อโมเดลได้รับการฝึกอบรมและประเมินผลแล้ว โมเดลก็พร้อมสำหรับการใช้งาน TensorFlow มีตัวเลือกมากมายสำหรับการปรับใช้โมเดลการแปลด้วยเครื่อง รวมถึง TensorFlow Serving, TensorFlow Lite และ TensorFlow.js TensorFlow Serving ช่วยให้ให้บริการโมเดลผ่าน REST API ซึ่งช่วยให้ผสานรวมกับแอปพลิเคชันอื่นๆ ได้อย่างง่ายดาย TensorFlow Lite ช่วยให้สามารถเรียกใช้โมเดลบนอุปกรณ์เคลื่อนที่ที่มีทรัพยากรจำกัด TensorFlow.js เปิดใช้งานการปรับใช้ในเว็บเบราว์เซอร์ ทำให้ผู้ใช้สามารถเข้าถึงการแปลได้โดยตรงบนเว็บไซต์

กรอบงานเว็บ เช่น FastAPI สามารถใช้เพื่อสร้าง REST API ได้เช่นกัน

คุณยังสามารถตรวจสอบบทความของเราเกี่ยวกับ วิธีปรับใช้โมเดล Machine Learning ของคุณ เพื่อดูรายละเอียดเพิ่มเติม

การปรับปรุงอย่างต่อเนื่อง

การสร้างแบบจำลองการแปลด้วยเครื่องเป็นกระบวนการที่ทำซ้ำ การตรวจสอบความคิดเห็นของผู้ใช้ การรวบรวมข้อมูลเพิ่มเติม และการปรับปรุงโมเดลผ่านการอัปเดตเป็นประจำ ถือเป็นสิ่งสำคัญสำหรับการปรับปรุงอย่างต่อเนื่อง ความยืดหยุ่นและความสามารถในการปรับขนาดของ TensorFlow ช่วยให้ปรับโมเดลให้เข้ากับความต้องการที่เปลี่ยนแปลงไปและภาษาใหม่ๆ ได้ง่ายขึ้น