Wprowadzenie beztekstowego przetwarzania języka naturalnego (NLP) zmieniło nacisk na szkolenie modeli językowych na sekwencjach możliwych do nauczenia się, odrębnych jednostek, a nie na standardowych transkrypcjach tekstu. Strategia ta miała na celu bezpośrednie zastosowanie zadań NLP do języka mówionego. W edycji głosowej taki model ma zmieniać słowa lub frazy tak, aby pasowały do transkrypcji, zachowując jednocześnie pierwotną treść mowy. Społeczność naukowa pracuje obecnie nad opracowaniem ujednoliconego modelu, który będzie doskonale sprawdzał się zarówno w zakresie natychmiastowego przetwarzania tekstu na mowę (TTS), jak i edycji mowy, co stanowi znaczny postęp w tej dziedzinie.
Zespół z Uniwersytetu Teksasu w Austin i Rembrand przedstawia VOICECRAFT model języka kodeków neuronowych (NCLM) oparty na technologii transformatorowej. Firma VOICECRAFT produkuje tokeny kodeków mowy neuronowej do wypełniania przy użyciu warunkowania autoregresyjnego w kontekstach dwukierunkowych, uzyskując najnowocześniejsze wyniki w zakresie TTS typu zero-shot i edycji mowy. Model ten wykorzystuje nowatorskie, dwuetapowe podejście do zmiany układu tokenów, które obejmuje opóźnione układanie w stosy i maskowanie przyczynowe, umożliwiając generowanie autoregresyjne z dwukierunkowym kontekstem dla sekwencji kodeków mowy. Metoda ta jest inspirowana mechanizmem maskowania przyczynowego stosowanym w skutecznych modelach sprzężonych obrazów tekstowych.
Aby ulepszyć modelowanie wielu książek kodowych, VOICECRAFT łączy maskowanie przyczynowe i opóźnione układanie. Model został oceniony za pomocą REALEDIT – wymagającego i zróżnicowanego zbioru danych skonstruowanego przez badaczy, który obejmował rzeczywiste przypadki edycji głosu z audiobooków, filmów z YouTube i podcastów Spotify. REALEDIT ocenia wydajność modelu w różnych scenariuszach edycji, w tym podczas dodawania, usuwania, podstawień i zmian zakresu tekstu. Różnorodność materiału, akcentów, stylów mówienia i dźwięków otoczenia zawartych w zbiorze danych sprawia, że jest to skuteczne narzędzie do oceny wykonalności algorytmów edycji głosu.
W subiektywnych testach odsłuchu na ludziach VOICECRAFT przekroczył poprzednie modele edycji głosu, w tym mocne punkty bazowe, takie jak zduplikowany VALL-E i model komercyjny XTTS v2, w zakresie TTS typu zero-shot i edycji mowy, nie wymagającym dostrajania. Zmieniona mowa modelki bardzo naśladuje oryginalne nagrania, co pokazuje jej skuteczność.
Zespół zdaje sobie jednak sprawę z ograniczeń programu VOICECRAFT, do których zaliczają się przerywane okresy ciszy, po których następują drapanie dźwięków w tworzonej mowie. Co więcej, wprowadzenie wyrafinowanych modeli, takich jak VOICECRAFT, stwarza nowe przeszkody dla bezpieczeństwa sztucznej inteligencji, szczególnie w przypadku znaków wodnych i rozpoznawania mowy syntetycznej. Naukowcy udostępnili wagi swojego kodu i modelu, aby ułatwić przyszłe badania nad bezpieczeństwem sztucznej inteligencji i syntezą mowy.