Beztekstu dabiskās valodas apstrādes (NLP) ieviešana mainīja uzsvaru uz valodu modeļu apmācību apgūstamu, diskrētu vienību sekvencēm, nevis standarta teksta transkriptiem. Šīs stratēģijas mērķis bija tieši pielietot NLP uzdevumus runātajā valodā. Balss rediģēšanā šādam modelim ir jāmaina vārdi vai frāzes, lai tie atbilstu transkriptam, vienlaikus saglabājot runas sākotnējo saturu. Pētnieku kopiena pašlaik strādā pie vienota modeļa izstrādes, kas izceļas gan ar nulles teksta pārvēršanu runā (TTS), gan runas rediģēšanu, kas ir būtisks lēciens šajā jomā.
Komanda no Teksasas Universitātes Ostinā un Rembrandā prezentē VOICECRAFT neironu kodeku valodas modeli (NCLM), kura pamatā ir transformatoru tehnoloģija. VOICECRAFT ražo neironu runas kodeku marķierus aizpildīšanai, izmantojot autoregresīvo kondicionēšanu divvirzienu kontekstos, panākot visprogresīvākos rezultātus nulles TTS un runas rediģēšanā. Šajā modelī ir iekļauta jauna divpakāpju marķieru pārkārtošanas pieeja, kas ietver aizkavētu sakraušanu un cēloņsakarības maskēšanu, ļaujot autorregresīvu ģenerēšanu ar divvirzienu kontekstu runas kodeku sekvencēm. Šī metode ir iedvesmota no cēloņsakarības maskēšanas mehānisma, ko izmanto veiksmīgos savienotajos teksta attēlu modeļos.
Lai uzlabotu vairāku kodu grāmatu modelēšanu, VOICECRAFT apvieno cēloņsakarības maskēšanu un aizkavētu sakraušanu. Modelis tika novērtēts ar REALEDIT — prasīgu un daudzveidīgu datu kopu, ko izveidojuši pētnieki, kas ietvēra reālas balss rediģēšanas gadījumus no audiogrāmatām, YouTube videoklipiem un Spotify aplādes. REALEDIT novērtē modeļa veiktspēju dažādos rediģēšanas scenārijos, tostarp kā papildinājumus, dzēšanu, aizstāšanu un teksta diapazona izmaiņas. Datu kopas materiālu, akcentu, runas stilu un vides trokšņu daudzveidība padara to par efektīvu instrumentu balss rediģēšanas algoritmu iespējamības novērtēšanai.
Subjektīvajos cilvēka klausīšanās testos VOICECRAFT pārspēja iepriekšējos balss rediģēšanas modeļus, tostarp spēcīgas bāzes līnijas, piemēram, dublēto VALL-E un komerciālo modeli XTTS v2, nulles kadra TTS un runas rediģēšanā, neprasot precizēšanu. Modeļa izmainītā runa cieši atdarina oriģinālos ierakstus, demonstrējot tā efektivitāti.
Tomēr komanda atzīst VOICECRAFT ierobežojumus, kas ietver intermitējošus klusuma periodus, kam seko skrāpējošas skaņas izveidotajā runā. Turklāt sarežģītu modeļu, piemēram, VOICECRAFT, ieviešana rada jaunus šķēršļus AI drošībai, jo īpaši ūdenszīmēm un sintētiskās runas atpazīšanai. Pētnieki ir padarījuši savus kodu un modeļu svarus pieejamus, lai atvieglotu turpmāko AI drošības un runas sintēzes izpēti.