Przełom VoiceCraft w edycji i syntezie mowy

Przełom VoiceCraft w edycji i syntezie mowy

Wprowadzenie beztekstowego przetwarzania języka naturalnego (NLP) zmieniło nacisk na szkolenie modeli językowych na sekwencjach możliwych do nauczenia się, odrębnych jednostek, a nie na standardowych transkrypcjach tekstu. Strategia ta miała na celu bezpośrednie zastosowanie zadań NLP do języka mówionego. W edycji głosowej taki model ma zmieniać słowa lub frazy tak, aby pasowały do ​​transkrypcji, zachowując jednocześnie pierwotną treść mowy. Społeczność naukowa pracuje obecnie nad opracowaniem ujednoliconego modelu, który będzie doskonale sprawdzał się zarówno w zakresie natychmiastowego przetwarzania tekstu na mowę (TTS), jak i edycji mowy, co stanowi znaczny postęp w tej dziedzinie.

Zespół z Uniwersytetu Teksasu w Austin i Rembrand przedstawia VOICECRAFT model języka kodeków neuronowych (NCLM) oparty na technologii transformatorowej. Firma VOICECRAFT produkuje tokeny kodeków mowy neuronowej do wypełniania przy użyciu warunkowania autoregresyjnego w kontekstach dwukierunkowych, uzyskując najnowocześniejsze wyniki w zakresie TTS typu zero-shot i edycji mowy. Model ten wykorzystuje nowatorskie, dwuetapowe podejście do zmiany układu tokenów, które obejmuje opóźnione układanie w stosy i maskowanie przyczynowe, umożliwiając generowanie autoregresyjne z dwukierunkowym kontekstem dla sekwencji kodeków mowy. Metoda ta jest inspirowana mechanizmem maskowania przyczynowego stosowanym w skutecznych modelach sprzężonych obrazów tekstowych.

Aby ulepszyć modelowanie wielu książek kodowych, VOICECRAFT łączy maskowanie przyczynowe i opóźnione układanie. Model został oceniony za pomocą REALEDIT – wymagającego i zróżnicowanego zbioru danych skonstruowanego przez badaczy, który obejmował rzeczywiste przypadki edycji głosu z audiobooków, filmów z YouTube i podcastów Spotify. REALEDIT ocenia wydajność modelu w różnych scenariuszach edycji, w tym podczas dodawania, usuwania, podstawień i zmian zakresu tekstu. Różnorodność materiału, akcentów, stylów mówienia i dźwięków otoczenia zawartych w zbiorze danych sprawia, że ​​jest to skuteczne narzędzie do oceny wykonalności algorytmów edycji głosu.

W subiektywnych testach odsłuchu na ludziach VOICECRAFT przekroczył poprzednie modele edycji głosu, w tym mocne punkty bazowe, takie jak zduplikowany VALL-E i model komercyjny XTTS v2, w zakresie TTS typu zero-shot i edycji mowy, nie wymagającym dostrajania. Zmieniona mowa modelki bardzo naśladuje oryginalne nagrania, co pokazuje jej skuteczność.

Zespół zdaje sobie jednak sprawę z ograniczeń programu VOICECRAFT, do których zaliczają się przerywane okresy ciszy, po których następują drapanie dźwięków w tworzonej mowie. Co więcej, wprowadzenie wyrafinowanych modeli, takich jak VOICECRAFT, stwarza nowe przeszkody dla bezpieczeństwa sztucznej inteligencji, szczególnie w przypadku znaków wodnych i rozpoznawania mowy syntetycznej. Naukowcy udostępnili wagi swojego kodu i modelu, aby ułatwić przyszłe badania nad bezpieczeństwem sztucznej inteligencji i syntezą mowy.

Code Labs Academy © 2025 Wszelkie prawa zastrzeżone.