VoiceCraft's doorbraak in spraakbewerking en -synthese
Bijgewerkt op June 05, 2024 2 Minuten lezen

De introductie van tekstloze natuurlijke taalverwerking (NLP) veranderde de nadruk op het trainen van taalmodellen op reeksen van leerbare, discrete eenheden in plaats van op standaardteksttranscripties. Deze strategie probeerde NLP-taken rechtstreeks toe te passen op gesproken taal. Bij stembewerking wordt van een dergelijk model verwacht dat het woorden of zinnen verandert zodat ze overeenkomen met een transcript, terwijl de oorspronkelijke inhoud van de toespraak behouden blijft. De onderzoeksgemeenschap werkt momenteel aan de ontwikkeling van een uniform model dat uitblinkt in zowel zero-shot tekst-naar-spraak (TTS) als spraakbewerking, wat een substantiële sprong voorwaarts op dit gebied betekent.
Een team van de Universiteit van Texas in Austin en Rembrand presenteert VOICECRAFT, een Neural Codec Language Model (NCLM) gebaseerd op transformatortechnologie. VOICECRAFT produceert neurale spraakcodectokens voor infilling met behulp van autoregressieve conditionering op bidirectionele contexten, waardoor geavanceerde resultaten worden bereikt op het gebied van zero-shot TTS en spraakbewerking. Dit model omvat een nieuwe benadering van tokenherschikking in twee fasen, waarbij vertraagde stapeling en causale maskering betrokken zijn, waardoor autoregressieve generatie met bidirectionele context voor spraakcodecreeksen mogelijk wordt. Deze methode is geïnspireerd op het causale maskeringsmechanisme dat wordt gebruikt in succesvolle gekoppelde tekst-beeldmodellen.
Om multi-codeboekmodellering te verbeteren, combineert VOICECRAFT causale maskering en vertraagde stapeling. Het model werd geëvalueerd met REALEDIT, een veeleisende en diverse dataset samengesteld door de onderzoekers die real-world stembewerkingsinstanties van audioboeken, YouTube-video’s en Spotify-podcasts omvatte. REALEDIT evalueert de prestaties van het model onder verschillende bewerkingsscenario’s, inclusief toevoegingen, verwijderingen, vervangingen en wijzigingen in de tekstreeks. De verscheidenheid aan materiaal, accenten, spreekstijlen en omgevingsgeluiden van de dataset maakt het een effectief hulpmiddel voor het beoordelen van de haalbaarheid van stembewerkingsalgoritmen.
In subjectieve menselijke luistertests overtrof VOICECRAFT eerdere stembewerkingsmodellen, inclusief sterke basislijnen zoals gedupliceerde VALL-E en het commerciële model XTTS v2, in zero-shot TTS en spraakbewerking, zonder dat er verfijndheid nodig was. De gewijzigde spraak van het model bootst nauwgezet de originele opnames na, wat de effectiviteit ervan aantoont.
Het team erkent echter de beperkingen van VOICECRAFT, waaronder periodieke stilteperioden gevolgd door krassende geluiden in de gecreëerde spraak. Bovendien creëert de introductie van geavanceerde modellen zoals VOICECRAFT nieuwe hindernissen voor AI-beveiliging, met name op het gebied van watermerken en het herkennen van synthetische spraak. De onderzoekers hebben hun code- en modelgewichten toegankelijk gemaakt om toekomstig onderzoek naar AI-veiligheid en spraaksynthese te vergemakkelijken.