Průlom VoiceCraftu v editaci a syntéze řeči

Průlom VoiceCraftu v editaci a syntéze řeči

Zavedení beztextového zpracování přirozeného jazyka (NLP) změnilo důraz na trénovací jazykové modely na posloupnosti naučitelných, diskrétních jednotek spíše než na standardní textové přepisy. Tato strategie se snažila přímo aplikovat úkoly NLP na mluvený jazyk. Při úpravě hlasu se předpokládá, že takový model změní slova nebo fráze tak, aby odpovídaly přepisu, a přitom si zachovaly původní podstatu řeči. Vědecká komunita v současné době pracuje na vývoji jednotného modelu, který vyniká jak v převodu textu na řeč s nulovým záběrem (TTS), tak v editaci řeči, což představuje podstatný skok v této oblasti.

Tým z Texaské univerzity v Austinu a Rembrandovi představuje VOICECRAFT, jazykový model neurálního kodeku (NCLM) založený na technologii transformátoru. VOICECRAFT vytváří tokeny neurálního řečového kodeku pro vyplnění pomocí autoregresivního podmiňování obousměrných kontextů, čímž dosahuje špičkových výsledků v TTS s nulovým záběrem a editaci řeči. Tento model zahrnuje nový dvoufázový přístup k přeuspořádání tokenů, který zahrnuje zpožděné skládání a kauzální maskování, což umožňuje autoregresivní generování s obousměrným kontextem pro sekvence kodeků řeči. Tato metoda je inspirována mechanismem kauzálního maskování používaným v úspěšných modelech sdruženého textu a obrazu.

Pro zlepšení modelování více kódových knih kombinuje VOICECRAFT kauzální maskování a zpožděné skládání. Model byl vyhodnocen pomocí REALEDIT, náročné a různorodé datové sady vytvořené výzkumníky, která zahrnovala skutečné instance úprav hlasu z audioknih, videí YouTube a podcastů Spotify. REALEDIT vyhodnocuje výkon modelu v různých scénářích úprav, včetně přidání, odstranění, nahrazení a změn rozsahu textu. Různorodost materiálu, akcentů, stylů mluvení a okolních zvuků z datové sady z ní činí účinný nástroj pro posouzení proveditelnosti algoritmů úpravy hlasu.

V testech subjektivního lidského poslechu překonal VOICECRAFT předchozí modely úpravy hlasu, včetně silných základních linií, jako je duplikovaný VALL-E a komerční model XTTS v2, v TTS s nulovým záběrem a editaci řeči, které nevyžadují žádné jemné dolaďování. Změněná řeč modelu přesně napodobuje původní nahrávky, což dokazuje její účinnost.

Tým si však uvědomuje omezení VOICECRAFT, která zahrnují přerušované tiché periody následované škrábáním ve vytvořené řeči. Zavedení sofistikovaných modelů, jako je VOICECRAFT, navíc vytváří nové překážky pro zabezpečení AI, zejména v oblasti vodoznaků a rozpoznávání syntetické řeči. Výzkumníci zpřístupnili své váhy kódu a modelů, aby usnadnili budoucí studium bezpečnosti AI a syntézy řeči.

Code Labs Academy © 2025 Všechna práva vyhrazena.