Avance de VoiceCraft na edición e síntese de voz

Avance de VoiceCraft na edición e síntese de voz

A introdución do procesamento da linguaxe natural sen texto (PNL) cambiou a énfase no adestramento de modelos lingüísticos en secuencias de unidades discretas aprendebles en lugar de transcricións de texto estándar. Esta estratexia buscaba aplicar directamente tarefas de PNL á linguaxe falada. Na edición de voz, suponse que un modelo deste tipo cambia palabras ou frases para que coincidan cunha transcrición mantendo a substancia orixinal do discurso. A comunidade investigadora está a traballar actualmente no desenvolvemento dun modelo unificado que destaque tanto na edición de texto a voz (TTS) como na edición de voz, o que supón un salto substancial na área.

Un equipo da Universidade de Texas en Austin e Rembrand presenta VOICECRAFT, un Neural Codec Language Model (NCLM) baseado na tecnoloxía de transformadores. VOICECRAFT produce tokens de códec de voz neuronal para o recheo mediante o condicionamento autorregresivo en contextos bidireccionais, logrando resultados de vangarda en TTS e edición de voz de disparo cero. Este modelo incorpora un novo enfoque de reordenación de tokens en dúas etapas que implica un apilamiento atrasado e un enmascaramento causal, o que permite a xeración autorregresiva con contexto bidireccional para as secuencias de códecs de voz. Este método está inspirado no mecanismo de enmascaramento causal empregado nos modelos de texto e imaxe acoplados exitosos.

Para mellorar o modelado de varios libros de códigos, VOICECRAFT combina o enmascaramento causal e o apilamiento retardado. O modelo foi avaliado con REALEDIT, un conxunto de datos esixente e diverso construído polos investigadores que incluía instancias de edición de voz do mundo real de audiolibros, vídeos de YouTube e podcasts de Spotify. REALEDIT avalía o rendemento do modelo baixo unha variedade de escenarios de edición, incluíndo adicións, eliminacións, substitucións e alteracións do texto. A variedade de material, acentos, estilos de fala e ruídos ambientais do conxunto de datos faino unha ferramenta eficaz para avaliar a viabilidade dos algoritmos de edición de voz.

Nas probas de audición humana subxectiva, VOICECRAFT superou os modelos anteriores de edición de voz, incluíndo liñas de base sólidas como VALL-E duplicado e o modelo comercial XTTS v2, en TTS de disparo cero e edición de voz, sen necesidade de afinar. O discurso alterado do modelo imita de preto as gravacións orixinais, demostrando a súa eficacia.

Non obstante, o equipo recoñece as limitacións de VOICECRAFT, que inclúen períodos de silencio intermitentes seguidos de sons de rascado no discurso creado. Ademais, a introdución de modelos sofisticados como VOICECRAFT crea novos obstáculos para a seguridade da intelixencia artificial, especialmente na marca de auga e no recoñecemento da fala sintética. Os investigadores fixeron accesibles os seus códigos e pesos de modelos para facilitar o estudo futuro sobre a seguridade da IA ​​e a síntese da voz.

Code Labs Academy © 2025 Todos os dereitos reservados.