Införandet av textlös naturlig språkbehandling (NLP) ändrade betoningen på att träna språkmodeller på sekvenser av inlärbara, diskreta enheter snarare än standardtextutskrifter. Denna strategi syftade till att direkt tillämpa NLP-uppgifter på talat språk. Vid röstredigering är det meningen att en sådan modell ändrar ord eller fraser för att matcha en utskrift samtidigt som talets ursprungliga innehåll bibehålls. Forskarvärlden arbetar för närvarande med att utveckla en enhetlig modell som utmärker sig både i text-till-tal (TTS) och talredigering, vilket representerar ett stort steg inom området.
Ett team från University of Texas i Austin och Rembrand presenterar VOICECRAFT, en Neural Codec Language Model (NCLM) baserad på transformatorteknologi. VOICECRAFT producerar neurala codec-tokens för infill med autoregressiv konditionering i dubbelriktade sammanhang, vilket uppnår banbrytande resultat i noll-shot TTS och talredigering. Denna modell innehåller en ny tvåstegs token-omarrangeringsmetod som involverar fördröjd stapling och kausal maskering, vilket möjliggör autoregressiv generering med dubbelriktad kontext för tal-codec-sekvenser. Denna metod är inspirerad av den kausala maskeringsmekanismen som används i framgångsrika kopplade text-bildmodeller.
För att förbättra modelleringen av flera kodböcker, kombinerar VOICECRAFT orsaksmaskering och fördröjd stapling. Modellen utvärderades med REALEDIT, en krävande och mångsidig datauppsättning konstruerad av forskarna som inkluderade verkliga röstredigeringsinstanser från ljudböcker, YouTube-videor och Spotify-podcaster. REALEDIT utvärderar modellens prestanda under en mängd olika redigeringsscenarier, inklusive som tillägg, raderingar, ersättningar och ändringar av textspann. Datauppsättningens variation av material, accenter, talstilar och omgivningsljud gör den till ett effektivt verktyg för att bedöma genomförbarheten av röstredigeringsalgoritmer.
I subjektiva tester för mänskligt lyssnande överträffade VOICECRAFT tidigare röstredigeringsmodeller, inklusive starka baslinjer som duplicerade VAL-E och den kommersiella modellen XTTS v2, i nollbilds TTS och talredigering, vilket inte kräver någon finjustering. Modellens ändrade tal efterliknar de ursprungliga inspelningarna, vilket visar dess effektivitet.
Teamet känner dock igen VOICECRAFTs begränsningar, som inkluderar intermittenta tysta perioder följt av repande ljud i skapat tal. Dessutom skapar introduktionen av sofistikerade modeller som VOICECRAFT nya hinder för AI-säkerhet, särskilt vid vattenmärkning och igenkänning av syntetiskt tal. Forskarna har gjort sina kod- och modellvikter tillgängliga för att underlätta framtida studier inom AI-säkerhet och talsyntes.