Прарыў VoiceCraft у галіне рэдагавання і сінтэзу маўлення

Прарыў VoiceCraft у галіне рэдагавання і сінтэзу маўлення

Увядзенне бестэкставай апрацоўкі натуральнай мовы (NLP) змяніла акцэнт на навучанне моўных мадэляў на паслядоўнасцях вывучаемых дыскрэтных адзінак, а не на стандартных тэкставых расшыфроўках. Гэтая стратэгія імкнулася непасрэдна прымяніць задачы НЛП да вуснай мовы. Пры галасавым рэдагаванні такая мадэль павінна змяняць словы або фразы ў адпаведнасці са стэнаграмай, захоўваючы зыходны змест прамовы. У цяперашні час даследчая супольнасць працуе над распрацоўкай уніфікаванай мадэлі, якая выдатна спраўляецца як з нулявым пераўтварэннем тэксту ў маўленне (TTS), так і з рэдагаваннем маўлення, што ўяўляе сабой істотны скачок у гэтай галіне.

Каманда з Універсітэта Тэхаса ў Осціне і Рэмбрандзе прадстаўляе VOICECRAFT, моўную мадэль нейронавых кодэкаў (NCLM), заснаваную на трансфарматарнай тэхналогіі. VOICECRAFT вырабляе токены нервовага маўленчага кодэка для запаўнення з дапамогай аўтарэгрэсійнага кандыцыянавання ў двухнакіраваных кантэкстах, дасягаючы перадавых вынікаў у нулявым рэжыме TTS і рэдагаванні маўлення. Гэтая мадэль уключае ў сябе новы двухэтапны падыход пераўпарадкавання токенаў, які ўключае адкладзенае стэкаванне і прычынную маскіроўку, што дазваляе аўтарэгрэсіўную генерацыю з двухнакіраваным кантэкстам для паслядоўнасцей маўленчых кодэкаў. Гэты метад натхнёны механізмам прычыннай маскіроўкі, які выкарыстоўваецца ў паспяховых спалучаных мадэлях тэксту і выявы.

Каб палепшыць мадэляванне некалькіх кодавых кніг, VOICECRAFT спалучае прычынную маскіроўку і адкладзенае стэкаванне. Мадэль была ацэненая з дапамогай REALEDIT, патрабавальнага і разнастайнага набору даных, створанага даследчыкамі, які ўключаў рэальныя асобнікі галасавога рэдагавання з аўдыякніг, відэа на YouTube і падкастаў Spotify. REALEDIT ацэньвае прадукцыйнасць мадэлі ў розных сцэнарыях рэдагавання, у тым ліку ў выглядзе дапаўненняў, выдаленняў, замен і змяненняў тэксту. Разнастайнасць матэрыялаў, акцэнтаў, стыляў маўлення і шумоў навакольнага асяроддзя ў наборы даных робіць яго эфектыўным інструментам для ацэнкі магчымасці алгарытмаў рэдагавання голасу.

У суб'ектыўных тэстах на праслухоўванне чалавекам VOICECRAFT перасягнуў папярэднія мадэлі рэдагавання галасы, у тым ліку моцныя базавыя паказчыкі, такія як дубліраваны VALL-E і камерцыйную мадэль XTTS v2, у нулявым TTS і рэдагаванні маўлення, не патрабуючы тонкай налады. Змененая гаворка мадэлі дакладна імітуе арыгінальныя запісы, дэманструючы яе эфектыўнасць.

Тым не менш, каманда прызнае абмежаванні VOICECRAFT, якія ўключаюць перыядычныя перыяды маўчання, за якімі ідуць драпаючыя гукі ў створанай гаворцы. Акрамя таго, з'яўленне складаных мадэляў, такіх як VOICECRAFT, стварае новыя перашкоды для бяспекі штучнага інтэлекту, асабліва ў вадзяных знаках і распазнаванні сінтэтычнага маўлення. Даследчыкі зрабілі даступнымі свае коды і вагавыя паказчыкі мадэляў, каб палегчыць будучыя даследаванні бяспекі штучнага інтэлекту і сінтэзу маўлення.

Code Labs Academy © 2025 Усе правы абароненыя.