Տեքստ չունեցող բնական լեզվի մշակման (NLP) ներդրումը փոխեց շեշտադրումը լեզվական մոդելների ուսուցման վրա ուսանելի, դիսկրետ միավորների հաջորդականության վրա, այլ ոչ թե ստանդարտ տեքստի տառադարձումների: Այս ռազմավարությունը նպատակ ուներ ուղղակիորեն կիրառել NLP առաջադրանքները խոսակցական լեզվի վրա: Ձայնի խմբագրման ժամանակ նման մոդելը պետք է փոխի բառերը կամ արտահայտությունները, որպեսզի համապատասխանի տառադարձությանը, միաժամանակ պահպանելով խոսքի սկզբնական էությունը: Հետազոտական համայնքը ներկայումս աշխատում է միասնական մոդելի մշակման վրա, որը գերազանցում է և՛ զրոյական կրակոց տեքստի խոսքի (TTS) և՛ խոսքի խմբագրմանը, որը զգալի թռիչք է ներկայացնում ոլորտում:
Օսթինի և Ռեմբրանդի Տեխասի համալսարանի թիմը ներկայացնում է VOICECRAFT, Նյարդային կոդեկ լեզվի մոդելը (NCLM)՝ հիմնված տրանսֆորմատորային տեխնոլոգիայի վրա: VOICECRAFT-ն արտադրում է նյարդային խոսքի կոդեկ նշաններ՝ լիցքավորելու համար՝ օգտագործելով ավտոռեգեսիվ պայմանավորում երկկողմանի համատեքստերում՝ հասնելով գերժամանակակից արդյունքների զրոյական կրակոցի TTS-ի և խոսքի խմբագրման դեպքում: Այս մոդելը ներառում է երկու փուլային նշանների վերադասավորման նոր մոտեցում, որը ներառում է հետաձգված կուտակում և պատճառահետևանքային քողարկում, որը հնարավորություն է տալիս խոսքի կոդեկի հաջորդականությունների համար երկկողմանի համատեքստով ավտոռեգեսիվ գեներացիա: Այս մեթոդը ոգեշնչված է պատճառահետևանքային քողարկման մեխանիզմով, որն օգտագործվում է զուգակցված տեքստ-պատկերի հաջող մոդելներում:
Բազմաբոդերի տետրերի մոդելավորումը բարելավելու համար VOICECRAFT-ը համատեղում է պատճառահետևանքային դիմակավորումը և հետաձգված կուտակումը: Մոդելը գնահատվել է REALEDIT-ի միջոցով՝ պահանջկոտ և բազմազան տվյալների բազա, որը ստեղծվել է հետազոտողների կողմից, որը ներառում է ձայնային խմբագրման իրական օրինակներ աուդիոգրքերից, YouTube-ի տեսանյութերից և Spotify փոդքաստներից: REALEDIT-ը գնահատում է մոդելի աշխատանքը խմբագրման մի շարք սցենարների ներքո, ներառյալ որպես լրացումներ, ջնջումներ, փոխարինումներ և տեքստի միջակայքի փոփոխություններ: Տվյալների հավաքածուի նյութերի, շեշտադրումների, խոսելու ոճերի և շրջակա միջավայրի աղմուկների բազմազանությունը այն դարձնում է արդյունավետ գործիք ձայնի խմբագրման ալգորիթմների իրագործելիությունը գնահատելու համար:
Մարդկանց լսողության սուբյեկտիվ թեստերում VOICECRAFT-ը գերազանցել է ձայնի խմբագրման նախորդ մոդելներին, ներառյալ ուժեղ հիմքերը, ինչպիսիք են կրկնօրինակված VALL-E-ը և XTTS v2 առևտրային մոդելը, զրոյական կրակոցի TTS-ի և խոսքի խմբագրման դեպքում, որոնք չեն պահանջում ճշգրտում: Մոդելի փոփոխված խոսքը սերտորեն ընդօրինակում է բնօրինակ ձայնագրությունները՝ ցուցադրելով դրա արդյունավետությունը:
Այնուամենայնիվ, թիմը ճանաչում է VOICECRAFT-ի սահմանափակումները, որոնք ներառում են ընդհատվող լուռ շրջաններ, որոնք հաջորդում են ստեղծված խոսքում քերծվող հնչյուններին: Ավելին, այնպիսի բարդ մոդելների ներդրումը, ինչպիսին է VOICECRAFT-ը, նոր խոչընդոտներ է ստեղծում արհեստական ինտելեկտի անվտանգության համար, մասնավորապես ջրային գծանշման և սինթետիկ խոսքի ճանաչման գործում: Հետազոտողները հասանելի են դարձրել իրենց կոդի և մոդելի կշիռները՝ հեշտացնելու արհեստական ինտելեկտի անվտանգության և խոսքի սինթեզի հետագա ուսումնասիրությունը: