La percée de VoiceCraft dans l'édition et la synthèse de la parole

La percée de VoiceCraft dans l'édition et la synthèse de la parole

L'introduction du traitement du langage naturel (NLP) sans texte a permis de mettre l'accent sur la formation de modèles de langage sur des séquences d'unités discrètes pouvant être apprises, plutôt que sur des transcriptions de texte standard. Cette stratégie visait à appliquer directement les tâches de traitement du langage naturel au langage parlé. Dans l'édition vocale, un tel modèle est censé modifier des mots ou des phrases pour les faire correspondre à une transcription tout en conservant la substance originale du discours. La communauté des chercheurs travaille actuellement à la mise au point d'un modèle unifié qui excelle à la fois dans la synthèse vocale à partir de texte et dans l'édition vocale, ce qui représente un progrès considérable dans ce domaine.

Une équipe de l'Université du Texas à Austin et de Rembrand présente VOICECRAFT, un modèle de langage codec neuronal (NCLM) basé sur la technologie des transformateurs. VOICECRAFT produit des jetons de codecs de parole neuronaux pour le remplissage en utilisant un conditionnement autorégressif sur des contextes bidirectionnels, ce qui permet d'obtenir des résultats de pointe en matière de TTS et d'édition de la parole sans coupure. Ce modèle intègre une nouvelle approche de réarrangement des jetons en deux étapes qui implique un empilement retardé et un masquage causal, permettant une génération autorégressive avec un contexte bidirectionnel pour les séquences de codecs vocaux. Cette méthode s'inspire du mécanisme de masquage causal utilisé dans les modèles couplés texte-image qui ont fait leurs preuves.

Pour améliorer la modélisation multicodebook, VOICECRAFT combine le masquage causal et l'empilement retardé. Le modèle a été évalué avec REALEDIT, un ensemble de données exigeant et diversifié construit par les chercheurs, qui comprend des cas réels d'édition de voix provenant de livres audio, de vidéos YouTube et de podcasts Spotify. REALEDIT évalue les performances du modèle dans une variété de scénarios d'édition, y compris les ajouts, les suppressions, les substitutions et les modifications de la portée du texte. La variété des matériaux, des accents, des styles d'expression et des bruits ambiants de l'ensemble de données en fait un outil efficace pour évaluer la faisabilité des algorithmes d'édition vocale.

Lors de tests subjectifs d'écoute humaine, VOICECRAFT a surpassé les modèles d'édition vocale précédents, y compris les modèles de base solides tels que VALL-E dupliqué et le modèle commercial XTTS v2, en matière de TTS et d'édition vocale à partir de zéro, sans nécessiter de réglage fin. Le discours modifié par le modèle reproduit fidèlement les enregistrements originaux, ce qui prouve son efficacité.

Toutefois, l'équipe reconnaît les limites de VOICECRAFT, qui comprend des périodes de silence intermittentes suivies de sons de grattage dans le discours créé. En outre, l'introduction de modèles sophistiqués tels que VOICECRAFT crée de nouveaux obstacles à la sécurité de l'IA, notamment en ce qui concerne le filigrane et la reconnaissance de la parole synthétique. Les chercheurs ont rendu leur code et leurs poids de modèle accessibles afin de faciliter les études futures sur la sécurité de l'IA et la synthèse vocale.

Code Labs Academy © 2025 Tous droits réservés.