Uvedba brezbesedilne obdelave naravnega jezika (NLP) je spremenila poudarek na učenje jezikovnih modelov na zaporedjih učljivih diskretnih enot namesto na standardnih prepisih besedila. Ta strategija je poskušala neposredno uporabiti naloge NLP v govorjenem jeziku. Pri glasovnem urejanju naj bi tak model spremenil besede ali besedne zveze, da se ujemajo s prepisom, hkrati pa ohranil izvirno vsebino govora. Raziskovalna skupnost trenutno dela na razvoju poenotenega modela, ki je odličen tako pri zero-shot text-to-speech (TTS) kot pri urejanju govora, kar predstavlja bistven preskok na tem področju.
Ekipa z Univerze v Teksasu v Austinu in Rembrand predstavlja VOICECRAFT, jezikovni model nevronskih kodekov (NCLM), ki temelji na transformatorski tehnologiji. VOICECRAFT izdeluje žetone nevronskega govornega kodeka za polnjenje z avtoregresivno kondicioniranjem dvosmernih kontekstov, s čimer dosega vrhunske rezultate pri zero-shot TTS in urejanju govora. Ta model vključuje nov dvostopenjski pristop preurejanja žetonov, ki vključuje zapoznelo zlaganje in vzročno maskiranje, kar omogoča avtoregresivno generiranje z dvosmernim kontekstom za zaporedja govornih kodekov. Ta metoda se zgleduje po vzročnem maskirnem mehanizmu, uporabljenem v uspešnih povezanih modelih besedila in slike.
Za izboljšanje modeliranja več šifrantov VOICECRAFT združuje vzročno maskiranje in zakasnjeno zlaganje. Model je bil ovrednoten z REALEDIT, zahtevnim in raznolikim naborom podatkov, ki so ga izdelali raziskovalci in je vključeval primere glasovnega urejanja v resničnem svetu iz zvočnih knjig, videoposnetkov YouTube in podcastov Spotify. REALEDIT ocenjuje delovanje modela v različnih scenarijih urejanja, vključno z dodajanjem, brisanjem, zamenjavo in spreminjanjem razpona besedila. Zaradi raznolikosti gradiva, poudarkov, govornih stilov in hrupa v naboru podatkov je učinkovito orodje za ocenjevanje izvedljivosti algoritmov za urejanje glasu.
V subjektivnih preizkusih poslušanja pri ljudeh je VOICECRAFT presegel prejšnje modele za urejanje glasu, vključno z močnimi osnovnimi linijami, kot sta podvojeni VALL-E in komercialni model XTTS v2, pri zero-shot TTS in urejanju govora, ki ne zahteva natančne nastavitve. Spremenjeni govor modela natančno posnema izvirne posnetke, kar dokazuje njegovo učinkovitost.
Vendar ekipa priznava omejitve VOICECRAFT-a, ki vključujejo prekinitvena obdobja tišine, ki jim sledijo praskajoči zvoki v ustvarjenem govoru. Poleg tega uvedba sofisticiranih modelov, kot je VOICECRAFT, ustvarja nove ovire za varnost umetne inteligence, zlasti pri vodnem žigu in prepoznavanju sintetičnega govora. Raziskovalci so omogočili dostop do svoje kode in uteži modela, da bi olajšali prihodnje študije varnosti AI in sinteze govora.