Terobosan VoiceCraft dalam Pengeditan dan Sintesis Ucapan

Terobosan VoiceCraft dalam Pengeditan dan Sintesis Ucapan

Pengenalan pemrosesan bahasa alami tanpa teks (NLP) mengubah penekanan pada pelatihan model bahasa pada rangkaian unit diskrit yang dapat dipelajari daripada transkrip teks standar. Strategi ini berupaya menerapkan tugas NLP secara langsung ke bahasa lisan. Dalam penyuntingan suara, model seperti itu diharapkan mengubah kata atau frasa agar sesuai dengan transkrip dengan tetap mempertahankan substansi asli pidato. Komunitas riset saat ini sedang berupaya mengembangkan model terpadu yang unggul dalam zero-shot text-to-speech (TTS) dan pengeditan ucapan, yang mewakili lompatan besar dalam bidang ini.

Sebuah tim dari Universitas Texas di Austin dan Rembrand mempersembahkan VOICECRAFT, Model Bahasa Neural Codec (NCLM) berdasarkan teknologi transformator. VOICECRAFT menghasilkan token codec ucapan saraf untuk diisi menggunakan pengkondisian autoregresif pada konteks dua arah, mencapai hasil mutakhir dalam TTS zero-shot dan pengeditan ucapan. Model ini menggabungkan pendekatan penataan ulang token dua tahap baru yang melibatkan penumpukan tertunda dan penyembunyian kausal, memungkinkan pembuatan autoregresif dengan konteks dua arah untuk rangkaian codec ucapan. Metode ini terinspirasi oleh mekanisme penyembunyian kausal yang digunakan dalam model teks-gambar yang berhasil digabungkan.

Untuk meningkatkan pemodelan multi-buku kode, VOICECRAFT menggabungkan penyembunyian kausal dan penumpukan tertunda. Model ini dievaluasi dengan REALEDIT, kumpulan data yang menuntut dan beragam yang dibuat oleh para peneliti yang mencakup contoh pengeditan suara dunia nyata dari buku audio, video YouTube, dan podcast Spotify. REALEDIT mengevaluasi kinerja model dalam berbagai skenario pengeditan, termasuk penambahan, penghapusan, penggantian, dan perubahan rentang teks. Keragaman materi, aksen, gaya bicara, dan kebisingan lingkungan pada kumpulan data menjadikannya alat yang efektif untuk menilai kelayakan algoritme pengeditan suara.

Dalam pengujian subjektif pendengaran manusia, VOICECRAFT melampaui model pengeditan suara sebelumnya, termasuk dasar yang kuat seperti duplikat VALL-E dan model komersial XTTS v2, dalam TTS zero-shot dan pengeditan ucapan, sehingga tidak memerlukan penyesuaian. Ucapan model yang diubah sangat mirip dengan rekaman aslinya, sehingga menunjukkan keefektifannya.

Namun, tim ini menyadari keterbatasan VOICECRAFT, yang mencakup periode diam yang terputus-putus diikuti dengan suara garukan dalam ucapan yang dibuat. Selain itu, pengenalan model canggih seperti VOICECRAFT menciptakan rintangan baru bagi keamanan AI, khususnya dalam pemberian tanda air dan pengenalan ucapan sintetis. Para peneliti telah membuat kode dan bobot model mereka dapat diakses untuk memfasilitasi studi di masa depan mengenai keamanan AI dan sintesis ucapan.

Code Labs Academy © 2025 Semua hak dilindungi undang-undang.