Ang Breakthrough ng VoiceCraft sa Speech Editing at Synthesis

Ang Breakthrough ng VoiceCraft sa Speech Editing at Synthesis

Binago ng pagpapakilala ng textless natural language processing (NLP) ang pagbibigay-diin sa pagsasanay ng mga modelo ng wika sa mga pagkakasunud-sunod ng mga natututunan, discrete na unit kaysa sa mga karaniwang text transcript. Hinahangad ng diskarteng ito na direktang ilapat ang mga gawain ng NLP sa pasalitang wika. Sa pag-edit ng boses, dapat na baguhin ng naturang modelo ang mga salita o parirala upang tumugma sa isang transcript habang pinapanatili ang orihinal na sangkap ng pagsasalita. Ang komunidad ng pananaliksik ay kasalukuyang nagtatrabaho sa pagbuo ng isang pinag-isang modelo na mahusay sa parehong zero-shot na text-to-speech (TTS) at pag-edit ng pagsasalita, na kumakatawan sa isang malaking hakbang sa lugar.

Isang team mula sa University of Texas sa Austin at Rembrand ang nagtatanghal ng VOICECRAFT, ng Neural Codec Language Model (NCLM) batay sa teknolohiya ng transformer. Gumagawa ang VOICECRAFT ng mga neural speech codec token para sa infilling gamit ang autoregressive conditioning sa mga bidirectional na konteksto, na nakakamit ng mga cutting-edge na resulta sa zero-shot na TTS at speech editing. Ang modelong ito ay nagsasama ng isang nobelang two-stage token rearrangement approach na kinabibilangan ng delayed stacking at causal masking, na nagpapagana ng autoregressive generation na may bidirectional na konteksto para sa mga speech codec sequence. Ang pamamaraang ito ay inspirasyon ng sanhi ng mekanismo ng masking na ginagamit sa matagumpay na pinagsamang mga modelo ng text-image.

Upang mapabuti ang pagmomodelo ng multi-codebook, pinagsasama ng VOICECRAFT ang causal masking at delayed stacking. Sinuri ang modelo gamit ang REALEDIT, isang hinihingi at magkakaibang dataset na binuo ng mga mananaliksik na may kasamang real-world voice editing instance mula sa mga audiobook, YouTube video, at Spotify podcast. Sinusuri ng REALEDIT ang pagganap ng modelo sa ilalim ng iba't ibang mga senaryo sa pag-edit, kabilang ang bilang mga pagdaragdag, pagtanggal, pagpapalit, at mga pagbabago sa span ng teksto. Ang iba't ibang materyal, accent, istilo ng pagsasalita, at ingay sa kapaligiran ng dataset ay ginagawa itong isang epektibong tool para sa pagtatasa ng pagiging posible ng mga algorithm sa pag-edit ng boses.

Sa mga pansariling pagsubok sa pakikinig ng tao, nalampasan ng VOICECRAFT ang mga nakaraang modelo ng pag-edit ng boses, kabilang ang mga matibay na baseline tulad ng na-duplicate na VALL-E at ang komersyal na modelong XTTS v2, sa zero-shot na TTS at pag-edit ng pagsasalita, na hindi nangangailangan ng fine-tuning. Ang binagong pananalita ng modelo ay malapit na ginagaya ang mga orihinal na pag-record, na nagpapakita ng pagiging epektibo nito.

Gayunpaman, kinikilala ng team ang mga limitasyon ng VOICECRAFT, na kinabibilangan ng mga pasulput-sulpot na tahimik na panahon na sinusundan ng mga gasgas na tunog sa ginawang pagsasalita. Higit pa rito, ang pagpapakilala ng mga sopistikadong modelo tulad ng VOICECRAFT ay lumilikha ng mga bagong hadlang para sa seguridad ng AI, lalo na sa watermarking at pagkilala sa synthetic na pagsasalita. Ginawa ng mga mananaliksik na naa-access ang kanilang code at mga timbang ng modelo upang mapadali ang pag-aaral sa hinaharap sa kaligtasan ng AI at speech synthesis.

Code Labs Academy © 2025 Lahat ng karapatan ay nakalaan.