ความก้าวหน้าของ VoiceCraft ในการแก้ไขและการสังเคราะห์คำพูด

ความก้าวหน้าของ VoiceCraft ในการแก้ไขและการสังเคราะห์คำพูด

การแนะนำการประมวลผลภาษาธรรมชาติแบบไร้ข้อความ (NLP) ได้เปลี่ยนการเน้นไปที่การฝึกอบรมโมเดลภาษาตามลำดับหน่วยการเรียนรู้ที่แยกจากกัน แทนที่จะเป็นการถอดเสียงข้อความมาตรฐาน กลยุทธ์นี้พยายามประยุกต์งาน NLP กับภาษาพูดโดยตรง ในการแก้ไขเสียง แบบจำลองดังกล่าวควรจะเปลี่ยนคำหรือวลีเพื่อให้ตรงกับการถอดเสียงโดยที่ยังคงเนื้อหาดั้งเดิมของคำพูดไว้ ปัจจุบันชุมชนการวิจัยกำลังทำงานเพื่อพัฒนาแบบจำลองแบบครบวงจรที่มีความเป็นเลิศทั้งในด้านการอ่านออกเสียงข้อความแบบ Zero-shot (TTS) และการแก้ไขคำพูด ซึ่งแสดงถึงการก้าวกระโดดที่สำคัญในด้านนี้

ทีมงานจากมหาวิทยาลัยเท็กซัสที่ออสตินและ Rembrand นำเสนอ VOICECRAFT, โมเดลภาษา Neural Codec (NCLM) ที่ใช้เทคโนโลยีหม้อแปลงไฟฟ้า VOICECRAFT สร้างโทเค็นตัวแปลงสัญญาณคำพูดแบบนิวรัลสำหรับการเติมโดยใช้การปรับสภาพอัตโนมัติในบริบทแบบสองทิศทาง เพื่อให้ได้ผลลัพธ์ที่ล้ำหน้าใน TTS แบบ Zero-shot และการแก้ไขคำพูด โมเดลนี้รวมเอาวิธีการจัดเรียงโทเค็นใหม่สองขั้นตอนที่เกี่ยวข้องกับการซ้อนล่าช้าและการมาสก์เชิงสาเหตุ ช่วยให้สามารถสร้างการถดถอยอัตโนมัติด้วยบริบทแบบสองทิศทางสำหรับลำดับตัวแปลงสัญญาณคำพูด วิธีการนี้ได้รับแรงบันดาลใจจากกลไกการปกปิดสาเหตุที่ใช้ในโมเดลข้อความและรูปภาพคู่ที่ประสบความสำเร็จ

เพื่อปรับปรุงการสร้างแบบจำลองสมุดโค้ดหลายเล่ม VOICECRAFT จะรวมการมาสก์เชิงสาเหตุและการซ้อนที่ล่าช้า แบบจำลองนี้ได้รับการประเมินด้วย REALEDIT ซึ่งเป็นชุดข้อมูลที่มีความต้องการและหลากหลายซึ่งสร้างโดยนักวิจัย ซึ่งรวมถึงอินสแตนซ์การแก้ไขเสียงในโลกแห่งความเป็นจริงจากหนังสือเสียง วิดีโอ YouTube และพอดแคสต์ Spotify REALEDIT ประเมินประสิทธิภาพของแบบจำลองภายใต้สถานการณ์การแก้ไขที่หลากหลาย รวมถึงการเพิ่มเติม การลบ การแทนที่ และการแก้ไขช่วงข้อความ ความหลากหลายของวัสดุ สำเนียง สไตล์การพูด และเสียงสิ่งแวดล้อมของชุดข้อมูล ทำให้ชุดข้อมูลเป็นเครื่องมือที่มีประสิทธิภาพในการประเมินความเป็นไปได้ของอัลกอริธึมการแก้ไขเสียง

ในการทดสอบการฟังของมนุษย์ตามอัตนัย VOICECRAFT เหนือกว่าโมเดลการแก้ไขเสียงก่อนหน้านี้ รวมถึงพื้นฐานที่แข็งแกร่ง เช่น VALL-E ที่ซ้ำกันและโมเดลเชิงพาณิชย์ XTTS v2 ใน TTS แบบ Zero-shot และการแก้ไขคำพูด โดยไม่ต้องมีการปรับแต่งอย่างละเอียด คำพูดที่เปลี่ยนแปลงของโมเดลจะเลียนแบบการบันทึกต้นฉบับอย่างใกล้ชิด ซึ่งแสดงให้เห็นถึงประสิทธิผล

อย่างไรก็ตาม ทีมงานตระหนักถึงข้อจำกัดของ VOICECRAFT ซึ่งรวมถึงช่วงเงียบเป็นระยะๆ ตามด้วยเสียงเกาในคำพูดที่สร้างขึ้น นอกจากนี้ การเปิดตัวโมเดลที่ซับซ้อน เช่น VOICECRAFT จะสร้างอุปสรรคใหม่สำหรับการรักษาความปลอดภัยของ AI โดยเฉพาะอย่างยิ่งในการใส่ลายน้ำและการจดจำคำพูดสังเคราะห์ นักวิจัยได้ทำให้โค้ดและน้ำหนักโมเดลของตนสามารถเข้าถึงได้ เพื่ออำนวยความสะดวกในการศึกษาในอนาคตเกี่ยวกับความปลอดภัยของ AI และการสังเคราะห์เสียงพูด

Code Labs Academy © 2025 สงวนลิขสิทธิ์.