Revoluția VoiceCraft în editarea și sinteza vorbirii

Revoluția VoiceCraft în editarea și sinteza vorbirii

Introducerea procesării fără text a limbajului natural (NLP) a schimbat accentul pe antrenarea modelelor lingvistice pe secvențe de unități discrete care pot fi învățate, mai degrabă decât transcrierile textului standard. Această strategie a urmărit să aplice direct sarcinile NLP la limbajul vorbit. În editarea vocii, un astfel de model ar trebui să schimbe cuvintele sau frazele pentru a se potrivi cu o transcriere, păstrând în același timp substanța originală a discursului. Comunitatea de cercetare lucrează în prezent la dezvoltarea unui model unificat care excelează atât la zero-shot text-to-speech (TTS) cât și la editarea vorbirii, ceea ce reprezintă un salt substanțial în domeniu.

O echipă de la Universitatea Texas din Austin și Rembrand prezintă VOICECRAFT, un Neural Codec Language Model (NCLM) bazat pe tehnologia transformatoarelor. VOICECRAFT produce jetoane de codec de vorbire neuronale pentru umplere folosind condiționarea autoregresivă în contexte bidirecționale, obținând rezultate de ultimă oră în TTS zero-shot și editarea vorbirii. Acest model încorporează o nouă abordare de rearanjare a simbolurilor în două etape care implică stivuirea întârziată și mascarea cauzală, permițând generarea autoregresivă cu context bidirecțional pentru secvențele de codec de vorbire. Această metodă este inspirată de mecanismul de mascare cauzală folosit în modelele de succes cuplate text-imagine.

Pentru a îmbunătăți modelarea multi-codebook, VOICECRAFT combină mascarea cauzală și stivuirea întârziată. Modelul a fost evaluat cu REALEDIT, un set de date solicitant și divers, construit de cercetători, care a inclus instanțe de editare a vocii din lumea reală din cărți audio, videoclipuri YouTube și podcasturi Spotify. REALEDIT evaluează performanța modelului într-o varietate de scenarii de editare, inclusiv adăugări, ștergeri, înlocuiri și modificări ale intervalului de text. Varietatea setului de date de materiale, accente, stiluri de vorbire și zgomote ambientale îl fac un instrument eficient pentru evaluarea fezabilității algoritmilor de editare a vocii.

În testele subiective de ascultare umană, VOICECRAFT a depășit modelele anterioare de editare a vocii, inclusiv linii de bază puternice, cum ar fi VALL-E duplicat și modelul comercial XTTS v2, în TTS zero-shot și editarea vorbirii, nefiind nevoie de reglaj fin. Discursul modificat al modelului imită îndeaproape înregistrările originale, demonstrând eficacitatea acestuia.

Cu toate acestea, echipa recunoaște limitările VOICECRAFT, care includ perioade intermitente de tăcere urmate de sunete de zgâriere în vorbirea creată. În plus, introducerea unor modele sofisticate, cum ar fi VOICECRAFT, creează noi obstacole pentru securitatea AI, în special în filigranarea și recunoașterea vorbirii sintetice. Cercetătorii și-au făcut accesibile codul și greutățile modelului pentru a facilita studiile viitoare privind siguranța AI și sinteza vorbirii.

Code Labs Academy © 2025 Toate drepturile rezervate.