La svolta di VoiceCraft nell'editing e nella sintesi vocale

La svolta di VoiceCraft nell'editing e nella sintesi vocale

L'introduzione dell'elaborazione del linguaggio naturale (NLP) senza testo ha cambiato l'enfasi sull'addestramento dei modelli linguistici su sequenze di unità discrete e apprendibili piuttosto che su trascrizioni di testo standard. Questa strategia ha cercato di applicare direttamente i compiti della PNL alla lingua parlata. Nell'editing vocale, un modello di questo tipo dovrebbe modificare parole o frasi per adattarle a una trascrizione mantenendo la sostanza originale del discorso. La comunità di ricerca sta attualmente lavorando allo sviluppo di un modello unificato che eccelle sia nella sintesi vocale (TTS) zero-shot che nell'editing vocale, il che rappresenta un salto sostanziale in questo settore.

Un team dell'Università del Texas ad Austin e Rembrand presenta VOICECRAFT, un Neural Codec Language Model (NCLM) basato sulla tecnologia dei trasformatori. VOICECRAFT produce token di codec vocali neurali per il riempimento utilizzando il condizionamento autoregressivo su contesti bidirezionali, ottenendo risultati all'avanguardia nel TTS zero-shot e nell'editing vocale. Questo modello incorpora un nuovo approccio di riarrangiamento dei token in due fasi che prevede l'impilamento ritardato e il mascheramento causale, consentendo la generazione autoregressiva con contesto bidirezionale per sequenze di codec vocali. Questo metodo si ispira al meccanismo di mascheramento causale impiegato nei modelli accoppiati testo-immagine di successo.

Per migliorare la modellazione multi-codice, VOICECRAFT combina il mascheramento causale e l'impilamento ritardato. Il modello è stato valutato con REALEDIT, un set di dati impegnativo e diversificato costruito dai ricercatori che includeva istanze di editing vocale del mondo reale da audiolibri, video di YouTube e podcast di Spotify. REALEDIT valuta le prestazioni del modello in una varietà di scenari di modifica, tra cui aggiunte, eliminazioni, sostituzioni e alterazioni dell'intervallo di testo. La varietà di materiale, accenti, stili di parlato e rumori ambientali del set di dati lo rende uno strumento efficace per valutare la fattibilità degli algoritmi di editing vocale.

Nei test soggettivi di ascolto umano, VOICECRAFT ha superato i precedenti modelli di editing vocale, comprese solide linee di base come VALL-E duplicato e il modello commerciale XTTS v2, in TTS zero-shot e editing vocale, senza richiedere alcuna messa a punto. Il parlato alterato del modello imita da vicino le registrazioni originali, dimostrandone l'efficacia.

Tuttavia, il team riconosce i limiti di VOICECRAFT, che includono periodi di silenzio intermittenti seguiti da suoni graffianti nel parlato creato. Inoltre, l’introduzione di modelli sofisticati come VOICECRAFT crea nuovi ostacoli alla sicurezza dell’intelligenza artificiale, in particolare nella filigrana e nel riconoscimento del parlato sintetico. I ricercatori hanno reso accessibili i pesi dei loro codici e modelli al fine di facilitare lo studio futuro sulla sicurezza dell’intelligenza artificiale e sulla sintesi vocale.

Code Labs Academy © 2025 Tutti i diritti riservati.