Die bekendstelling van tekslose natuurlike taalverwerking (NLP) het die klem verander na die opleiding van taalmodelle op volgordes van aanleerbare, diskrete eenhede eerder as standaard tekstranskripsies. Hierdie strategie het gepoog om NLP-take direk op gesproke taal toe te pas. In stemredigering is so 'n model veronderstel om woorde of frases te verander om by 'n transkripsie te pas, terwyl die toespraak se oorspronklike inhoud behou word. Die navorsingsgemeenskap werk tans aan die ontwikkeling van 'n verenigde model wat uitblink in beide nul-skoot teks-na-spraak (TTS) en spraakredigering, wat 'n aansienlike sprong in die gebied verteenwoordig.
'n Span van die Universiteit van Texas in Austin en Rembrand bied VOICECRAFT, 'n Neurale Kodektaalmodel (NCLM) aan wat op transformatortegnologie gebaseer is. VOICECRAFT produseer neurale spraak-kodek-tokens vir invulling deur outoregressiewe kondisionering op tweerigting-kontekste te gebruik, wat die nuutste uitkomste in nul-skoot TTS en spraakredigering bereik. Hierdie model inkorporeer 'n nuwe twee-stadium token-herrangskikkingsbenadering wat vertraagde stapeling en oorsaaklike maskering behels, wat outoregressiewe generering moontlik maak met tweerigtingkonteks vir spraakkodek-reekse. Hierdie metode is geïnspireer deur die oorsaaklike maskeringsmeganisme wat in suksesvolle gekoppelde teks-beeldmodelle gebruik word.
Om multi-kodeboek-modellering te verbeter, kombineer VOICECRAFT oorsaaklike maskering en vertraagde stapeling. Die model is geëvalueer met REALEDIT, 'n veeleisende en diverse datastel wat deur die navorsers saamgestel is, wat werklike stemredigeringsgevalle van oudioboeke, YouTube-video's en Spotify-poduitsendings ingesluit het. REALEDIT evalueer die model se werkverrigting onder 'n verskeidenheid redigeringscenario's, insluitend as byvoegings, skrappings, vervangings en teksspanwysigings. Die datastel se verskeidenheid materiaal, aksente, praatstyle en omgewingsgeluide maak dit 'n doeltreffende hulpmiddel om die haalbaarheid van stemredigeringsalgoritmes te evalueer.
In subjektiewe menslike luistertoetse het VOICECRAFT vorige stemredigeringsmodelle oortref, insluitend sterk basislyne soos gedupliseerde VALL-E en die kommersiële model XTTS v2, in nulskoot TTS en spraakredigering, wat geen fynverstelling vereis het nie. Die model se veranderde spraak boots die oorspronklike opnames nou na, wat die doeltreffendheid daarvan demonstreer.
Die span erken egter VOICECRAFT se beperkings, wat intermitterende stil periodes insluit, gevolg deur krapklanke in geskape spraak. Verder skep die bekendstelling van gesofistikeerde modelle soos VOICECRAFT nuwe struikelblokke vir KI-sekuriteit, veral in watermerk en herkenning van sintetiese spraak. Die navorsers het hul kode- en modelgewigte toeganklik gemaak om toekomstige studie in KI-veiligheid en spraaksintese te fasiliteer.