Прорив VoiceCraft у редагуванні та синтезі мовлення

Прорив VoiceCraft у редагуванні та синтезі мовлення

Впровадження безтекстової обробки природної мови (NLP) змінило акцент на навчання мовних моделей на послідовностях дискретних одиниць, які можна вивчати, а не на стандартних текстових транскриптах. Ця стратегія спрямована на пряме застосування завдань НЛП до усної мови. Під час редагування голосу така модель має змінювати слова чи фрази, щоб вони відповідали транскрипту, зберігаючи оригінальну суть мови. Наразі дослідницьке співтовариство працює над розробкою уніфікованої моделі, яка чудово справляється як з нульовим перетворенням тексту в мову (TTS), так і з редагуванням мовлення, що є суттєвим кроком у цій галузі.

Команда з Техаського університету в Остіні та Рембранді представляє VOICECRAFT, модель мови нейронних кодеків (NCLM), засновану на трансформаторній технології. VOICECRAFT виробляє маркери нейронного мовного кодека для заповнення за допомогою авторегресійного кондиціювання двонаправлених контекстів, досягаючи передових результатів у нульовому TTS і редагуванні мовлення. Ця модель включає в себе новий двоетапний підхід до перегрупування маркерів, який включає відкладене стекування та причинне маскування, уможливлюючи авторегресивну генерацію з двонаправленим контекстом для послідовностей мовних кодеків. Цей метод заснований на механізмі причинно-наслідкового маскування, який використовується в успішних поєднаних моделях текст-зображення.

Щоб покращити моделювання кількох кодових книг, VOICECRAFT поєднує причинне маскування та відкладене стекування. Модель було оцінено за допомогою REALEDIT, складного та різноманітного набору даних, створеного дослідниками, який включав екземпляри реального голосового редагування з аудіокниг, відео YouTube і подкастів Spotify. REALEDIT оцінює продуктивність моделі за різними сценаріями редагування, включно з додаванням, видаленням, заміною та зміною тексту. Різноманітність матеріалу, акцентів, стилів розмови та шумів навколишнього середовища робить набір даних ефективним інструментом для оцінки здійсненності алгоритмів редагування голосу.

У суб’єктивних тестах на прослуховування людини VOICECRAFT перевершив попередні моделі редагування голосу, включаючи сильні базові лінії, такі як дубльований VALL-E та комерційну модель XTTS v2, у нульовому TTS та редагуванні мовлення, не потребуючи точного налаштування. Змінена мова моделі точно повторює оригінальні записи, демонструючи її ефективність.

Однак команда визнає обмеження VOICECRAFT, які включають періодичні періоди мовчання, за якими слідують дряпаючі звуки у створеній мові. Крім того, впровадження складних моделей, таких як VOICECRAFT, створює нові перешкоди для безпеки штучного інтелекту, зокрема у водяних знаках і розпізнаванні синтетичної мови. Дослідники зробили доступним свій код і ваги моделі, щоб полегшити майбутні дослідження безпеки ШІ та синтезу мови.

Code Labs Academy © 2025 Всі права захищені.