Прорыв VoiceCraft в области редактирования и синтеза речи

Прорыв VoiceCraft в области редактирования и синтеза речи

Внедрение бестекстовой обработки естественного языка (НЛП) изменило акцент на обучение языковых моделей на последовательностях изучаемых дискретных единиц, а не на стандартных текстовых расшифровках. Эта стратегия была направлена ​​на непосредственное применение задач НЛП к разговорной речи. При редактировании голоса такая модель должна изменять слова или фразы в соответствии с расшифровкой, сохраняя при этом исходную суть речи. В настоящее время исследовательское сообщество работает над разработкой унифицированной модели, которая превосходно справляется как с преобразованием текста в речь (TTS), так и с редактированием речи, что представляет собой существенный скачок в этой области.

Команда из Техасского университета в Остине и Рембранде представляет VOICECRAFT, языковую модель нейронного кодека (NCLM), основанную на технологии преобразователей. VOICECRAFT производит токены нейронных речевых кодеков для заполнения с использованием авторегрессионного кондиционирования двунаправленных контекстов, достигая передовых результатов при нулевом TTS и редактировании речи. Эта модель включает в себя новый подход к двухэтапной перестановке токенов, который включает в себя отложенное стекирование и причинное маскирование, что обеспечивает авторегрессионную генерацию с двунаправленным контекстом для последовательностей речевых кодеков. Этот метод основан на механизме причинно-следственной маскировки, используемом в успешных связанных моделях текста и изображения.

Чтобы улучшить моделирование с использованием нескольких кодовых книг, VOICECRAFT сочетает причинно-следственную маскировку и отложенное суммирование. Модель была оценена с помощью REALEDIT, требовательного и разнообразного набора данных, созданного исследователями, который включал реальные примеры редактирования голоса из аудиокниг, видео на YouTube и подкастов Spotify. REALEDIT оценивает производительность модели при различных сценариях редактирования, включая добавление, удаление, замену и изменение текстового диапазона. Разнообразие материала, акцентов, стилей речи и шумов окружающей среды, содержащихся в наборе данных, делает его эффективным инструментом для оценки возможности алгоритмов редактирования голоса.

В субъективных тестах на прослушивание человека VOICECRAFT превзошёл предыдущие модели редактирования голоса, включая сильные базовые модели, такие как дублированный VALL-E и коммерческую модель XTTS v2, в нулевом TTS и редактировании речи, не требующем точной настройки. Измененная речь модели точно имитирует оригинальные записи, демонстрируя свою эффективность.

Однако команда признает ограничения VOICECRAFT, которые включают в себя периодические периоды молчания, за которыми следуют царапающие звуки в созданной речи. Более того, внедрение сложных моделей, таких как VOICECRAFT, создает новые препятствия для безопасности ИИ, особенно в области водяных знаков и распознавания синтетической речи. Исследователи сделали доступными веса своего кода и модели, чтобы облегчить будущие исследования в области безопасности ИИ и синтеза речи.

Code Labs Academy © 2025 Все права защищены.