Prielom VoiceCraftu v úprave a syntéze reči

Prielom VoiceCraftu v úprave a syntéze reči

Zavedenie beztextového spracovania prirodzeného jazyka (NLP) zmenilo dôraz na trénovanie jazykových modelov na sekvencie naučiteľných, diskrétnych jednotiek namiesto štandardných textových prepisov. Táto stratégia sa snažila priamo aplikovať úlohy NLP na hovorený jazyk. Pri úprave hlasu sa predpokladá, že takýto model zmení slová alebo frázy tak, aby sa zhodovali s prepisom, pričom sa zachová pôvodná podstata reči. Výskumná komunita v súčasnosti pracuje na vývoji jednotného modelu, ktorý vyniká v prevode textu na reč s nulovým záberom (TTS) aj v úprave reči, čo predstavuje podstatný skok v tejto oblasti.

Tím z Texaskej univerzity v Austine a Rembrande predstavuje VOICECRAFT, jazykový model neurálneho kodeku (NCLM) založený na technológii transformátora. VOICECRAFT vytvára tokeny kodekov neurálnej reči na vyplnenie pomocou autoregresívneho podmieňovania obojsmerných kontextov, čím sa dosahujú špičkové výsledky v oblasti TTS s nulovým záberom a úpravy reči. Tento model zahŕňa nový prístup dvojstupňového preskupenia tokenov, ktorý zahŕňa oneskorené stohovanie a kauzálne maskovanie, čo umožňuje autoregresívne generovanie s obojsmerným kontextom pre sekvencie kodekov reči. Táto metóda je inšpirovaná mechanizmom kauzálneho maskovania, ktorý sa používa v úspešných modeloch spojených textových obrázkov.

Na zlepšenie modelovania viacerých číselníkov kombinuje VOICECRAFT kauzálne maskovanie a oneskorené skladanie. Model bol hodnotený pomocou REALEDIT, náročného a rôznorodého súboru údajov zostaveného výskumníkmi, ktorý zahŕňal skutočné inštancie úpravy hlasu z audiokníh, videí YouTube a podcastov Spotify. REALEDIT vyhodnocuje výkon modelu v rámci rôznych scenárov úprav, vrátane pridávania, vymazania, nahradenia a zmien rozsahu textu. Rôznorodosť materiálu, akcentov, štýlov hovorenia a okolitých zvukov z neho robí efektívny nástroj na hodnotenie uskutočniteľnosti algoritmov úpravy hlasu.

V subjektívnych testoch ľudského počúvania prekonal VOICECRAFT predchádzajúce modely úpravy hlasu, vrátane silných základných línií, ako je duplikovaný VALL-E a komerčný model XTTS v2, v režime zero-shot TTS a úprave reči, ktoré nevyžadujú žiadne jemné dolaďovanie. Zmenená reč modelu verne napodobňuje pôvodné nahrávky, čo dokazuje jej účinnosť.

Tím si však uvedomuje obmedzenia VOICECRAFT, ktoré zahŕňajú prerušované tiché obdobia, po ktorých nasledujú škrabavé zvuky vo vytvorenej reči. Okrem toho zavedenie sofistikovaných modelov, ako je VOICECRAFT, vytvára nové prekážky pre bezpečnosť AI, najmä v oblasti vodoznaku a rozpoznávania syntetickej reči. Výskumníci sprístupnili svoje váhy kódu a modelov, aby uľahčili budúce štúdium bezpečnosti AI a syntézy reči.

Code Labs Academy © 2025 Všetky práva vyhradené.