Avanço da VoiceCraft em edição e síntese de fala

Avanço da VoiceCraft em edição e síntese de fala

A introdução do processamento de linguagem natural sem texto (PNL) mudou a ênfase no treinamento de modelos de linguagem em sequências de unidades discretas que podem ser aprendidas, em vez de transcrições de texto padrão. Esta estratégia procurou aplicar diretamente as tarefas da PNL à linguagem falada. Na edição de voz, tal modelo deve alterar palavras ou frases para corresponder a uma transcrição, mantendo ao mesmo tempo a substância original do discurso. A comunidade de pesquisa está atualmente trabalhando no desenvolvimento de um modelo unificado que se destaque tanto na conversão de texto em fala (TTS) quanto na edição de fala, o que representa um salto substancial na área.

Uma equipe da Universidade do Texas em Austin e Rembrand apresenta VOICECRAFT, um modelo de linguagem de codec neural (NCLM) baseado em tecnologia de transformador. VOICECRAFT produz tokens de codec de fala neural para preenchimento usando condicionamento autorregressivo em contextos bidirecionais, alcançando resultados de ponta em TTS zero-shot e edição de fala. Este modelo incorpora uma nova abordagem de rearranjo de token em dois estágios que envolve empilhamento atrasado e mascaramento causal, permitindo a geração autorregressiva com contexto bidirecional para sequências de codec de fala. Este método é inspirado no mecanismo de mascaramento causal empregado em modelos texto-imagem acoplados bem-sucedidos.

Para melhorar a modelagem de vários livros de códigos, VOICECRAFT combina mascaramento causal e empilhamento atrasado. O modelo foi avaliado com REALEDIT, um conjunto de dados exigente e diversificado construído pelos pesquisadores que incluía instâncias reais de edição de voz de audiolivros, vídeos do YouTube e podcasts do Spotify. REALEDIT avalia o desempenho do modelo em uma variedade de cenários de edição, incluindo adições, exclusões, substituições e alterações de extensão de texto. A variedade de materiais, sotaques, estilos de fala e ruídos ambientais do conjunto de dados o torna uma ferramenta eficaz para avaliar a viabilidade de algoritmos de edição de voz.

Em testes subjetivos de audição humana, o VOICECRAFT superou modelos anteriores de edição de voz, incluindo linhas de base fortes, como VALL-E duplicado e o modelo comercial XTTS v2, em TTS zero-shot e edição de fala, sem necessidade de ajuste fino. A fala alterada da modelo imita de perto as gravações originais, demonstrando sua eficácia.

No entanto, a equipe reconhece as limitações do VOICECRAFT, que incluem períodos de silêncio intermitentes seguidos de sons arranhados na fala criada. Além disso, a introdução de modelos sofisticados como o VOICECRAFT cria novos obstáculos para a segurança da IA, particularmente na criação de marcas de água e no reconhecimento de fala sintética. Os pesquisadores tornaram seus códigos e pesos de modelo acessíveis para facilitar estudos futuros em segurança de IA e síntese de fala.

Code Labs Academy © 2025 Todos os direitos reservados.