Mit der Einführung der textlosen Verarbeitung natürlicher Sprache (NLP) verlagerte sich der Schwerpunkt auf das Training von Sprachmodellen auf Sequenzen lernbarer, diskreter Einheiten statt auf Standardtexttranskripten. Ziel dieser Strategie war es, NLP-Aufgaben direkt auf die gesprochene Sprache anzuwenden. Bei der Sprachbearbeitung soll ein solches Modell Wörter oder Phrasen so ändern, dass sie mit einem Transkript übereinstimmen, während der ursprüngliche Inhalt der Rede erhalten bleibt. Die Forschungsgemeinschaft arbeitet derzeit an der Entwicklung eines einheitlichen Modells, das sich sowohl bei der Zero-Shot-Text-to-Speech (TTS) als auch bei der Sprachbearbeitung auszeichnet, was einen erheblichen Fortschritt auf diesem Gebiet darstellt.
Ein Team der University of Texas in Austin und Rembrand präsentiert VOICECRAFT,, ein Neural Codec Language Model (NCLM), das auf Transformer-Technologie basiert. VOICECRAFT erstellt neuronale Sprachcodec-Tokens zum Ausfüllen mithilfe autoregressiver Konditionierung in bidirektionalen Kontexten und erzielt so innovative Ergebnisse bei Zero-Shot-TTS und Sprachbearbeitung. Dieses Modell beinhaltet einen neuartigen zweistufigen Ansatz zur Token-Neuanordnung, der verzögertes Stapeln und kausale Maskierung umfasst und eine autoregressive Generierung mit bidirektionalem Kontext für Sprach-Codec-Sequenzen ermöglicht. Diese Methode ist vom kausalen Maskierungsmechanismus inspiriert, der in erfolgreichen gekoppelten Text-Bild-Modellen verwendet wird.
Um die Modellierung mehrerer Codebücher zu verbessern, kombiniert VOICECRAFT kausale Maskierung und verzögertes Stapeln. Das Modell wurde mit REALEDIT evaluiert, einem von den Forschern erstellten anspruchsvollen und vielfältigen Datensatz, der reale Sprachbearbeitungsinstanzen aus Hörbüchern, YouTube-Videos und Spotify-Podcasts umfasste. REALEDIT bewertet die Leistung des Modells unter verschiedenen Bearbeitungsszenarien, einschließlich Hinzufügungen, Löschungen, Ersetzungen und Textbereichsänderungen. Die Vielfalt des Datensatzes an Material, Akzenten, Sprechstilen und Umgebungsgeräuschen macht ihn zu einem wirksamen Werkzeug zur Beurteilung der Machbarkeit von Sprachbearbeitungsalgorithmen.
In subjektiven menschlichen Hörtests übertraf VOICECRAFT frühere Sprachbearbeitungsmodelle, einschließlich starker Basismodelle wie das duplizierte VALL-E und das kommerzielle Modell XTTS v2, bei Zero-Shot-TTS und Sprachbearbeitung, ohne dass eine Feinabstimmung erforderlich war. Die veränderte Sprache des Modells ahmt die Originalaufnahmen genau nach und demonstriert so ihre Wirksamkeit.
Das Team ist sich jedoch der Einschränkungen von VOICECRAFT bewusst, zu denen intermittierende Stillephasen, gefolgt von kratzenden Geräuschen in der erzeugten Sprache, gehören. Darüber hinaus schafft die Einführung anspruchsvoller Modelle wie VOICECRAFT neue Hürden für die KI-Sicherheit, insbesondere bei der Wasserzeichenmarkierung und der Erkennung synthetischer Sprache. Die Forscher haben ihre Code- und Modellgewichte zugänglich gemacht, um zukünftige Studien zur KI-Sicherheit und Sprachsynthese zu erleichtern.