La introducció del processament del llenguatge natural sense text (PNL) va canviar l'èmfasi en l'entrenament de models lingüístics en seqüències d'unitats discretes i aprensibles en lloc de transcripcions de text estàndard. Aquesta estratègia pretenia aplicar directament tasques de PNL al llenguatge parlat. En l'edició de veu, se suposa que aquest model ha de canviar paraules o frases perquè coincideixin amb una transcripció tot conservant la substància original del discurs. Actualment, la comunitat d'investigadors està treballant en el desenvolupament d'un model unificat que excel·li tant en el text a veu (TTS) com en l'edició de veu, la qual cosa representa un salt substancial en la zona.
Un equip de la Universitat de Texas a Austin i Rembrand presenten VOICECRAFT, un Neural Codec Language Model (NCLM) basat en la tecnologia de transformadors. VOICECRAFT produeix fitxes de còdec de veu neuronal per omplir mitjançant condicionament autoregressiu en contextos bidireccionals, aconseguint resultats d'avantguarda en TTS zero-shot i edició de veu. Aquest model incorpora un nou enfocament de reordenació de testimonis en dues etapes que implica un apilament retardat i un emmascarament causal, que permet la generació autoregressiva amb un context bidireccional per a seqüències de còdec de parla. Aquest mètode s'inspira en el mecanisme d'emmascarament causal emprat en models de text-imatge acoblats amb èxit.
Per millorar el modelatge de diversos llibres de codis, VOICECRAFT combina l'emmascarament causal i l'apilament retardat. El model es va avaluar amb REALEDIT, un conjunt de dades exigent i divers creat pels investigadors que incloïa instàncies d'edició de veu del món real d'audiollibres, vídeos de YouTube i podcasts de Spotify. REALEDIT avalua el rendiment del model sota una varietat d'escenaris d'edició, com ara addicions, supressions, substitucions i alteracions de l'abast de text. La varietat de material, accents, estils de parla i sorolls ambientals del conjunt de dades el converteixen en una eina eficaç per avaluar la viabilitat dels algorismes d'edició de veu.
En proves subjectives d'escolta humana, VOICECRAFT va superar els models d'edició de veu anteriors, incloent línies de base sòlides com el VALL-E duplicat i el model comercial XTTS v2, en TTS zero-shot i edició de veu, sense necessitat d'ajustaments fins. El discurs alterat del model imita de prop els enregistraments originals, demostrant la seva eficàcia.
Tanmateix, l'equip reconeix les limitacions de VOICECRAFT, que inclouen períodes de silenci intermitents seguits de sons de ratllat en el discurs creat. A més, la introducció de models sofisticats com VOICECRAFT crea nous obstacles per a la seguretat de la IA, especialment en la marca d'aigua i el reconeixement de la parla sintètica. Els investigadors han fet que els seus codis i peses de model siguin accessibles per tal de facilitar l'estudi futur de la seguretat de la IA i la síntesi de la parla.