La introducción del procesamiento del lenguaje natural (PLN) sin texto cambió el énfasis hacia el entrenamiento de modelos de lenguaje en secuencias de unidades discretas que se pueden aprender en lugar de transcripciones de texto estándar. Esta estrategia buscaba aplicar directamente las tareas de PNL al lenguaje hablado. En la edición de voz, se supone que un modelo de este tipo cambia palabras o frases para que coincidan con una transcripción conservando al mismo tiempo la sustancia original del discurso. La comunidad de investigación está trabajando actualmente en el desarrollo de un modelo unificado que sobresalga tanto en la conversión de texto a voz (TTS) como en la edición de voz, lo que representa un salto sustancial en el área.
Un equipo de la Universidad de Texas en Austin y Rembrand presentan VOICECRAFT, un modelo de lenguaje de códec neuronal (NCLM) basado en tecnología de transformadores. VOICECRAFT produce tokens de códec de voz neuronales para el relleno utilizando condicionamiento autorregresivo en contextos bidireccionales, logrando resultados de vanguardia en TTS de disparo cero y edición de voz. Este modelo incorpora un novedoso enfoque de reordenamiento de tokens en dos etapas que implica apilamiento retardado y enmascaramiento causal, lo que permite la generación autorregresiva con contexto bidireccional para secuencias de códecs de voz. Este método está inspirado en el mecanismo de enmascaramiento causal empleado en modelos exitosos de imagen-texto acoplados.
Para mejorar el modelado de libros de códigos múltiples, VOICECRAFT combina enmascaramiento causal y apilamiento retardado. El modelo se evaluó con REALEDIT, un conjunto de datos diverso y exigente construido por los investigadores que incluía instancias de edición de voz del mundo real de audiolibros, vídeos de YouTube y podcasts de Spotify. REALEDIT evalúa el rendimiento del modelo en una variedad de escenarios de edición, que incluyen adiciones, eliminaciones, sustituciones y alteraciones de la extensión del texto. La variedad de material, acentos, estilos de habla y ruidos ambientales del conjunto de datos lo convierte en una herramienta eficaz para evaluar la viabilidad de los algoritmos de edición de voz.
En pruebas subjetivas de escucha humana, VOICECRAFT superó los modelos de edición de voz anteriores, incluidas líneas de base sólidas como VALL-E duplicado y el modelo comercial XTTS v2, en TTS de disparo cero y edición de voz, sin necesidad de ajustes. El discurso alterado del modelo imita fielmente las grabaciones originales, lo que demuestra su eficacia.
Sin embargo, el equipo reconoce las limitaciones de VOICECRAFT, que incluyen períodos de silencio intermitentes seguidos de sonidos chirriantes en el habla creada. Además, la introducción de modelos sofisticados como VOICECRAFT crea nuevos obstáculos para la seguridad de la IA, particularmente en las marcas de agua y el reconocimiento del habla sintética. Los investigadores han hecho accesibles los pesos de su código y modelo para facilitar estudios futuros sobre la seguridad de la IA y la síntesis del habla.