Innføringen av tekstløs naturlig språkbehandling (NLP) endret vekten til å trene språkmodeller på sekvenser av lærbare, diskrete enheter i stedet for standard tekstutskrifter. Denne strategien søkte å bruke NLP-oppgaver direkte på talespråk. I stemmeredigering skal en slik modell endre ord eller uttrykk for å matche en transkripsjon samtidig som talens opprinnelige substans beholdes. Forskningsmiljøet jobber for tiden med å utvikle en enhetlig modell som utmerker seg både i tekst-til-tale (TTS) og taleredigering, som representerer et betydelig sprang på området.
Et team fra University of Texas i Austin og Rembrand presenterer VOICECRAFT, en Neural Codec Language Model (NCLM) basert på transformatorteknologi. VOICECRAFT produserer nevrale talekodek-tokens for utfylling ved hjelp av autoregressiv kondisjonering i toveis kontekster, for å oppnå banebrytende resultater i nullskudds-TTS og taleredigering. Denne modellen inneholder en ny to-trinns token-omorganiseringstilnærming som involverer forsinket stabling og årsaksmaskering, som muliggjør autoregressiv generering med toveis kontekst for talekodeksekvenser. Denne metoden er inspirert av den kausale maskeringsmekanismen som brukes i vellykkede koblede tekst-bildemodeller.
For å forbedre multi-kodebok modellering, kombinerer VOICECRAFT kausal maskering og forsinket stabling. Modellen ble evaluert med REALEDIT, et krevende og mangfoldig datasett konstruert av forskerne som inkluderte stemmeredigering fra den virkelige verden fra lydbøker, YouTube-videoer og Spotify-podcaster. REALEDIT evaluerer modellens ytelse under en rekke redigeringsscenarier, inkludert som tillegg, slettinger, erstatninger og endringer i tekstspenn. Datasettets variasjon av materiale, aksenter, talestiler og miljøstøy gjør det til et effektivt verktøy for å vurdere gjennomførbarheten av stemmeredigeringsalgoritmer.
I subjektive menneskelige lyttetester overgikk VOICECRAFT tidligere stemmeredigeringsmodeller, inkludert sterke grunnlinjer som dupliserte VAL-E og den kommersielle modellen XTTS v2, i zero-shot TTS og taleredigering, som ikke krever finjustering. Modellens endrede tale etterligner de originale opptakene, og demonstrerer effektiviteten.
Imidlertid gjenkjenner teamet VOICECRAFTs begrensninger, som inkluderer intermitterende stille perioder etterfulgt av skrapelyder i skapt tale. Videre skaper introduksjonen av sofistikerte modeller som VOICECRAFT nye hindringer for AI-sikkerhet, spesielt innen vannmerking og gjenkjennelse av syntetisk tale. Forskerne har gjort kode- og modellvektene sine tilgjengelige for å lette fremtidige studier innen AI-sikkerhet og talesyntese.