Indførelsen af tekstløs naturlig sprogbehandling (NLP) ændrede vægten til at træne sprogmodeller på sekvenser af indlærelige, diskrete enheder i stedet for standardteksttransskriptioner. Denne strategi søgte at anvende NLP-opgaver direkte på talesprog. I stemmeredigering er det meningen, at en sådan model skal ændre ord eller sætninger, så de matcher en transskription, samtidig med at talens oprindelige substans bevares. Forskersamfundet arbejder i øjeblikket på at udvikle en samlet model, der udmærker sig ved både nul-shot tekst-til-tale (TTS) og taleredigering, hvilket repræsenterer et væsentligt spring på området.
Et team fra University of Texas i Austin og Rembrand præsenterer VOICECRAFT, en Neural Codec Language Model (NCLM) baseret på transformerteknologi. VOICECRAFT producerer neurale tale-codec-tokens til udfyldning ved hjælp af autoregressiv konditionering på tovejskontekster, hvilket opnår banebrydende resultater i nul-shot TTS og taleredigering. Denne model inkorporerer en ny to-trins token-omlægningstilgang, der involverer forsinket stabling og kausal maskering, hvilket muliggør autoregressiv generering med tovejskontekst for tale-codec-sekvenser. Denne metode er inspireret af den kausale maskeringsmekanisme, der anvendes i vellykkede koblede tekst-billede-modeller.
For at forbedre multi-kodebogsmodellering kombinerer VOICECRAFT kausal maskering og forsinket stabling. Modellen blev evalueret med REALEDIT, et krævende og mangfoldigt datasæt konstrueret af forskerne, som inkluderede stemmeredigering fra den virkelige verden fra lydbøger, YouTube-videoer og Spotify-podcasts. REALEDIT evaluerer modellens ydeevne under en række forskellige redigeringsscenarier, herunder tilføjelser, sletninger, substitutioner og ændringer af tekstspænd. Datasættets mangfoldighed af materiale, accenter, talestile og omgivende støj gør det til et effektivt værktøj til at vurdere gennemførligheden af stemmeredigeringsalgoritmer.
I subjektive menneskelige lyttetests overgik VOICECRAFT tidligere stemmeredigeringsmodeller, inklusive stærke baselines såsom duplikeret VAL-E og den kommercielle model XTTS v2, i nul-shot TTS og taleredigering, hvilket ikke kræver finjustering. Modellens ændrede tale efterligner de originale optagelser tæt, hvilket viser dens effektivitet.
Teamet anerkender dog VOICECRAFTs begrænsninger, som inkluderer intermitterende stille perioder efterfulgt af kradselyde i skabt tale. Desuden skaber introduktionen af sofistikerede modeller såsom VOICECRAFT nye forhindringer for AI-sikkerhed, især inden for vandmærkning og genkendelse af syntetisk tale. Forskerne har gjort deres kode- og modelvægte tilgængelige for at lette fremtidig undersøgelse af AI-sikkerhed og talesyntese.