„VoiceCraft“ proveržis kalbos redagavimo ir sintezės srityje

„VoiceCraft“ proveržis kalbos redagavimo ir sintezės srityje

Įvedus natūralios kalbos apdorojimą be teksto (NLP), dėmesys buvo pakeistas į kalbos modelių mokymąsi mokomų, atskirų vienetų, o ne standartinių teksto nuorašų, sekomis. Šia strategija buvo siekiama tiesiogiai pritaikyti NLP užduotis šnekamajai kalbai. Redaguojant balsu toks modelis turėtų pakeisti žodžius ar frazes, kad jie atitiktų nuorašą, išlaikant pradinę kalbos esmę. Mokslininkų bendruomenė šiuo metu dirba kurdama vieningą modelį, kuris puikiai veiktų tiek nulinio teksto į kalbą (TTS), tiek kalbos redagavimo srityje, o tai yra didelis šuolis šioje srityje.

Teksaso universiteto Ostine ir Rembrand komanda pristato VOICECRAFT, Neural Codec Language Model (NCLM), pagrįstą transformatorių technologija. VOICECRAFT gamina neuroninius kalbos kodeko žetonus, skirtus užpildyti naudojant autoregresyvų kondicionavimą dvikrypčiuose kontekstuose, kad pasiektų pažangiausių rezultatų naudojant nulinio kadro TTS ir kalbos redagavimą. Šis modelis apima naują dviejų pakopų žetonų pertvarkymo metodą, apimantį uždelstą krovimą ir priežastinį maskavimą, leidžiantį autoregresyviai generuoti dvikryptį kalbos kodekų sekos kontekstą. Šis metodas įkvėptas priežastinio maskavimo mechanizmo, naudojamo sėkminguose susietuose teksto vaizdo modeliuose.

Siekiant pagerinti kelių kodų knygų modeliavimą, VOICECRAFT derina priežastinį maskavimą ir uždelstą kaupimą. Modelis buvo įvertintas naudojant REALEDIT – sudėtingą ir įvairų tyrėjų sukurtą duomenų rinkinį, į kurį buvo įtraukti realaus pasaulio balso redagavimo pavyzdžiai iš audio knygų, „YouTube“ vaizdo įrašų ir „Spotify“ podcast'ų. REALEDIT įvertina modelio našumą pagal įvairius redagavimo scenarijus, įskaitant papildymus, ištrynimus, keitimus ir teksto intervalo pakeitimus. Duomenų rinkinio medžiagos, akcentų, kalbėjimo stilių ir aplinkos triukšmo įvairovė daro jį veiksmingu įrankiu vertinant balso redagavimo algoritmų tinkamumą.

Atliekant subjektyvius žmogaus klausymosi testus, VOICECRAFT pranoko ankstesnius balso redagavimo modelius, įskaitant stiprias bazines linijas, tokias kaip dubliuotas VALL-E ir komercinis modelis XTTS v2, nulinio kadro TTS ir kalbos redagavimo srityje, nereikalaujant tikslaus derinimo. Pakeista modelio kalba labai imituoja originalius įrašus, parodydama jo efektyvumą.

Tačiau komanda pripažįsta VOICECRAFT apribojimus, įskaitant pertraukiamus tylos periodus, po kurių skamba įbrėžimai sukurtoje kalboje. Be to, įdiegus sudėtingus modelius, tokius kaip VOICECRAFT, sukuriama naujų kliūčių dirbtinio intelekto saugumui, ypač žymint vandenženklį ir atpažįstant sintetinę kalbą. Tyrėjai padarė prieinamus savo kodo ir modelio svorius, kad palengvintų būsimus AI saugos ir kalbos sintezės tyrimus.

Code Labs Academy © 2025 Visos teisės saugomos.