A VoiceCraft áttörése a beszédszerkesztés és szintézis terén

A VoiceCraft áttörése a beszédszerkesztés és szintézis terén

A szöveg nélküli természetes nyelvi feldolgozás (NLP) bevezetése megváltoztatta a hangsúlyt a nyelvi modellek megtanulható, diszkrét egységek sorozatán való képzésére, nem pedig szabványos szöveges átiratokra. Ez a stratégia arra törekedett, hogy az NLP-feladatokat közvetlenül alkalmazza a beszélt nyelvre. A hangszerkesztés során egy ilyen modellnek úgy kell megváltoztatnia a szavakat vagy kifejezéseket, hogy azok megfeleljenek az átiratnak, miközben megtartja a beszéd eredeti tartalmát. A kutatói közösség jelenleg egy olyan egységes modell kidolgozásán dolgozik, amely mind a nulla-shot text-to-speech (TTS) és a beszédszerkesztés terén kiváló, ami jelentős ugrást jelent ezen a területen.

Az austini és rembrandi Texasi Egyetem csapata bemutatja a VOICECRAFT, transzformátortechnológián alapuló neurális kodek nyelvi modelljét (NCLM). A VOICECRAFT neurális beszédkodek tokeneket állít elő, amelyek autoregresszív kondicionálás segítségével tölthetők ki kétirányú kontextusokban, csúcsminőségű eredményeket érve el a nullapontos TTS-ben és a beszédszerkesztésben. Ez a modell egy új, kétlépcsős token átrendezési megközelítést tartalmaz, amely magában foglalja a késleltetett halmozást és az oksági maszkolást, lehetővé téve az autoregresszív generálást kétirányú kontextussal a beszédkodek szekvenciákhoz. Ezt a módszert a sikeres csatolt szöveg-kép modellekben alkalmazott oksági maszkolási mechanizmus ihlette.

A több kódkönyvből álló modellezés javítása érdekében a VOICECRAFT egyesíti az oksági maszkolást és a késleltetett halmozást. A modellt a REALEDIT segítségével értékelték ki, amely egy igényes és sokrétű adatkészlet, amelyet a kutatók állítottak össze, és amely hangoskönyvekből, YouTube-videókból és Spotify podcastokból származó valós hangszerkesztési példányokat tartalmazott. A REALEDIT számos szerkesztési forgatókönyv szerint értékeli a modell teljesítményét, beleértve a kiegészítéseket, törléseket, helyettesítéseket és szövegtartomány-módosításokat. Az adatkészlet sokféle anyaga, akcentusa, beszédstílusa és környezeti zajai hatékony eszközzé teszik a hangszerkesztő algoritmusok megvalósíthatóságának felméréséhez.

A szubjektív emberi hallási tesztek során a VOICECRAFT felülmúlta a korábbi hangszerkesztési modelleket, beleértve az erős alapvonalakat, mint például a duplikált VALL-E és a kereskedelmi modell XTTS v2, a nullapontos TTS-ben és a beszédszerkesztésben, amely nem igényel finomhangolást. A modell megváltozott beszéde szorosan utánozza az eredeti felvételeket, bizonyítva annak hatékonyságát.

A csapat azonban felismeri a VOICECRAFT korlátait, amelyek közé tartoznak az időszakos néma időszakok, amelyeket karcos hangok követnek a létrehozott beszédben. Ezenkívül a kifinomult modellek, például a VOICECRAFT bevezetése új akadályokat állít az AI biztonsága elé, különösen a vízjelezés és a szintetikus beszéd felismerése terén. A kutatók elérhetővé tették kód- és modellsúlyukat, hogy megkönnyítsék a mesterséges intelligencia biztonságának és a beszédszintézisnek a jövőbeni tanulmányozását.

Code Labs Academy © 2025 Minden jog fenntartva.