Mətnsiz təbii dil emalının (NLP) tətbiqi dil modellərinin standart mətn transkriptlərindən daha çox öyrənilə bilən, diskret vahidlərin ardıcıllığına öyrədilməsinə diqqəti dəyişdi. Bu strategiya NLP tapşırıqlarını birbaşa danışıq dilinə tətbiq etməyə çalışırdı. Səs redaktəsində belə bir model nitqin ilkin mahiyyətini saxlamaqla sözləri və ya ifadələri transkripta uyğunlaşdırmaq üçün dəyişdirməlidir. Tədqiqat icması hazırda həm sıfır atışlı mətndən nitqə (TTS) həm də nitq redaktəsində üstün olan vahid modelin yaradılması üzərində işləyir ki, bu da bu sahədə əhəmiyyətli bir sıçrayışı təmsil edir.
Austin və Rembranddakı Texas Universitetindən olan bir komanda VOICECRAFT, transformator texnologiyasına əsaslanan Neyral Kodek Dil Modelini (NCLM) təqdim edir. VOICECRAFT iki istiqamətli kontekstlərdə avtoreqressiv kondisionerdən istifadə etməklə doldurmaq, sıfır çəkilişli TTS və nitq redaktəsində qabaqcıl nəticələrə nail olmaq üçün sinir nitq kodek tokenlərini istehsal edir. Bu model nitq kodekləri ardıcıllığı üçün iki istiqamətli kontekstlə avtoreqressiv generasiyaya imkan verən gecikmiş yığma və səbəb-nəticə maskalanmasını əhatə edən yeni iki mərhələli işarənin yenidən təşkili yanaşmasını özündə birləşdirir. Bu üsul uğurlu birləşdirilmiş mətn-şəkil modellərində istifadə olunan səbəb-nəticə maskalanması mexanizmindən ilhamlanır.
Çox kodlu kitabların modelləşdirilməsini təkmilləşdirmək üçün VOICECRAFT səbəbli maskalanma və gecikmiş yığmanı birləşdirir. Model audiokitablardan, YouTube videolarından və Spotify podkastlarından real səs redaktə nümunələrini özündə birləşdirən tədqiqatçılar tərəfindən qurulmuş tələbkar və müxtəlif verilənlər bazası olan REALEDIT ilə qiymətləndirilib. REALEDIT müxtəlif redaktə ssenariləri, o cümlədən əlavələr, silinmələr, əvəzetmələr və mətn diapazonunun dəyişdirilməsi kimi modelin performansını qiymətləndirir. Verilənlər toplusunun müxtəlif materialları, vurğuları, danışıq üslubları və ətraf mühitdəki səs-küyləri onu səs redaktə alqoritmlərinin mümkünlüyünü qiymətləndirmək üçün effektiv alətə çevirir.
Subyektiv insan dinləmə testlərində VOICECRAFT heç bir incə tənzimləmə tələb etməyən, sıfır çəkilişli TTS və nitq redaktəsində təkrarlanan VALL-E və XTTS v2 kommersiya modeli kimi güclü baza xətləri də daxil olmaqla əvvəlki səs redaktəsi modellərini üstələyib. Modelin dəyişdirilmiş nitqi onun effektivliyini nümayiş etdirərək, orijinal yazıları yaxından təqlid edir.
Bununla belə, komanda VOICECRAFT-in məhdudiyyətlərini tanıyır ki, bunlara yaradılmış nitqdə cızma səsləri ilə müşayiət olunan fasiləli səssiz dövrlər daxildir. Bundan əlavə, VOICECRAFT kimi mürəkkəb modellərin tətbiqi süni intellekt təhlükəsizliyi üçün yeni maneələr yaradır, xüsusən su nişanı və sintetik nitqin tanınmasında. Tədqiqatçılar süni intellekt təhlükəsizliyi və nitq sintezi sahəsində gələcək tədqiqatları asanlaşdırmaq üçün kod və model çəkilərini əlçatan edib.