VoiceCraftin läpimurto puheen editoinnissa ja synteesissä

VoiceCraftin läpimurto puheen editoinnissa ja synteesissä

Tekstittömän luonnollisen kielen käsittelyn (NLP) käyttöönotto muutti painopisteen kielimallien koulutuksessa opittavien, erillisten yksiköiden sekvensseissä tavallisten tekstitranskriptien sijaan. Tällä strategialla pyrittiin suoraan soveltamaan NLP-tehtäviä puhuttuun kieleen. Äänen editoinnissa tällaisen mallin oletetaan muuttavan sanoja tai lauseita vastaamaan transkriptiota samalla kun puheen alkuperäinen aines säilyy. Tutkimusyhteisö kehittää parhaillaan yhtenäistä mallia, joka loistaa sekä zero-shot text-to-speech (TTS) että puheen editoinnissa, mikä on merkittävä harppaus tällä alueella.

Austinin ja Rembrandin Texasin yliopiston tiimi esittelee VOICECRAFT, muuntajateknologiaan perustuvan neurokoodekkikielimallin (NCLM). VOICECRAFT tuottaa neuraalisia puhekoodekkeja täytettäväksi käyttämällä autoregressiivistä ehdollistamista kaksisuuntaisissa yhteyksissä, mikä saavuttaa huipputuloksia nollakuvassa TTS:ssä ja puheen editoinnissa. Tämä malli sisältää uuden kaksivaiheisen merkkien uudelleenjärjestelyn, joka sisältää viivästetyn pinoamisen ja kausaalisen maskauksen, mikä mahdollistaa autoregressiivisen generoinnin kaksisuuntaisella kontekstilla puheen koodekkisarjoille. Tämä menetelmä on saanut inspiraationsa kausaalisesta maskausmekanismista, jota käytetään onnistuneissa kytketyissä teksti-kuvamalleissa.

Parantaakseen usean koodikirjan mallintamista VOICECRAFT yhdistää kausaalisen maskauksen ja viivästetun pinoamisen. Malli arvioitiin REALEDITillä, tutkijoiden rakentamalla vaativalla ja monipuolisella tietojoukolla, joka sisälsi todellisia äänenmuokkaustapauksia äänikirjoista, YouTube-videoista ja Spotify-podcasteista. REALEDIT arvioi mallin suorituskykyä erilaisissa muokkausskenaarioissa, mukaan lukien lisäykset, poistot, korvaukset ja tekstivälin muutokset. Tietojoukon materiaalien, aksenttien, puhetyylien ja ympäristöäänien moninaisuus tekee siitä tehokkaan työkalun äänenmuokkausalgoritmien toteutettavuuden arvioimiseen.

Subjektiivisissa ihmisen kuuntelutesteissä VOICECRAFT ylitti aiemmat äänenmuokkausmallit, mukaan lukien vahvat peruslinjat, kuten monistettu VALL-E ja kaupallinen malli XTTS v2, nollakuvassa TTS:ssä ja puheeditaatiossa, jotka eivät vaadi hienosäätöä. Mallin muutettu puhe jäljittelee läheisesti alkuperäisiä äänitteitä, mikä osoittaa sen tehokkuuden.

Tiimi kuitenkin tunnistaa VOICECRAFTin rajoitukset, joihin kuuluvat ajoittaiset hiljaiset jaksot, joita seuraa raapiminen luodussa puheessa. Lisäksi kehittyneiden mallien, kuten VOICECRAFT, käyttöönotto luo uusia esteitä tekoälyn turvallisuudelle, erityisesti vesileimauksessa ja synteettisen puheen tunnistamisessa. Tutkijat ovat tehneet koodi- ja mallipainonsa saataville helpottaakseen tekoälyn turvallisuuden ja puhesynteesin tulevaa tutkimusta.

Code Labs Academy © 2025 Kaikki oikeudet pidätetään.