Testurik gabeko hizkuntza naturalaren prozesamendua (NLP) sartzeak enfasia aldatu zuen hizkuntza-ereduak ikasteko unitate diskretuen sekuentziak, testu-transkripzio estandarrak baino. Estrategia honek NLP zereginak ahozko hizkuntzari zuzenean aplikatzea bilatzen zuen. Ahots edizioan, eredu horrek hitzak edo esaldiak aldatu behar ditu transkripzio batekin bat etortzeko, hizkeraren jatorrizko substantzia mantenduz. Ikerketa-komunitateak eredu bateratu bat garatzen ari da, bai zero-shot testutik hizketarako (TTS) bai ahots-edizioan, eta horrek jauzi handia suposatzen du.
Austin eta Rembrand Texaseko Unibertsitateko talde batek VOICECRAFT, Transformadoreen teknologian oinarritutako Neural Codec Language Model (NCLM) aurkezten du. VOICECRAFT-ek hizketa-kodeka neuronaleko tokenak ekoizten ditu testuinguru bidirezionaletan baldintzapen autorregresiboa erabiliz betetzeko, punta-puntako emaitzak lortuz zero-shot TTS eta hizketa edizioan. Eredu honek bi faseko token berrantolaketa-ikuspegi berri bat barne hartzen du, pilaketa atzeratua eta kausazko maskaratzeak dakartzana, hizketa-kodeka-sekuentzietarako noranzko biko testuinguruarekin sorkuntza autorregresiboa ahalbidetzen duena. Metodo hau testu-irudi eredu arrakastatsuetan erabiltzen den kausazko maskaratze mekanismoan inspiratuta dago.
Kode-liburu anitzeko modelizazioa hobetzeko, VOICECRAFT-ek kausazko maskaraketa eta pilaketa atzeratua konbinatzen ditu. Eredua REALEDIT-ekin ebaluatu zen, ikertzaileek eraikitako datu-multzo zorrotz eta anitza, mundu errealeko ahotsa editatzeko kasuak barne hartzen zituen audioliburuetatik, YouTube bideoetatik eta Spotify podcastetatik. REALEDITek ereduaren errendimendua ebaluatzen du hainbat edizio-eszenatokitan, besteak beste, gehikuntzak, ezabaketak, ordezkapenak eta testuen tartearen aldaketak. Datu-multzoaren material, azentu, hitz-estilo eta inguruneko zaraten aniztasunari esker, tresna eraginkorra da ahotsa editatzeko algoritmoen bideragarritasuna ebaluatzeko.
Giza entzumen-probetan, VOICECRAFT-ek aurreko ahots-edizio-ereduak gainditu zituen, VALL-E bikoiztua eta XTTS v2 eredu komertziala bezalako oinarri sendoak barne, zero-shot TTSn eta hizketa-edizioan, doikuntza zehatzik beharrik gabe. Ereduaren hizkera aldatuak jatorrizko grabazioak gertutik imitatzen ditu, bere eraginkortasuna erakutsiz.
Dena den, taldeak VOICECRAFT-en mugak aitortzen ditu, tarteka isiluneak barne hartzen dituena, eta ondoren sortutako hizkeran urratu soinuak. Gainera, VOICECRAFT bezalako eredu sofistikatuak sartzeak oztopo berriak sortzen ditu AIren segurtasunerako, bereziki ur-markak eta hizkera sintetikoa antzematean. Ikertzaileek beren kodea eta ereduaren pisuak eskuragarri jarri dituzte, AIren segurtasunari eta hizketa-sintesiari buruzko etorkizuneko azterketak errazteko.