Текстсиз табигый тилди иштетүүнү (NLP) киргизүү стандарттык текст транскрипттерине караганда тил моделдерин үйрөнүүгө боло турган, дискреттик бирдиктердин ырааттуулугуна үйрөтүүгө басым жасады. Бул стратегия NLP тапшырмаларын оозеки тилге түздөн-түз колдонууга аракет кылган. Үндү редакциялоодо мындай модель сөздүн түпкү маңызын сактап калуу менен стенограммага дал келүү үчүн сөздөрдү же сөз айкаштарын өзгөртүүсү керек. Изилдөө коомчулугу учурда нөлдүк тексттен сөзгө (TTS) жана кепти редакциялоодо эң сонун бирдиктүү моделди иштеп чыгуунун үстүндө иштеп жатат, бул аймактагы олуттуу секирикти билдирет.
Остин жана Рембранддагы Техас университетинин командасы VOICECRAFT, трансформатордук технологияга негизделген Нейрондук кодек тилинин моделин (NCLM) сунуштайт. VOICECRAFT эки багыттуу контексттерде авторегрессивдүү кондицияны колдонуу менен толтуруу үчүн нейрондук кеп кодек белгилерин чыгарат, нөлдүк TTS жана кепти редакциялоодо эң алдыңкы натыйжаларга жетишет. Бул модель сүйлөө кодектеринин ырааттуулугу үчүн эки багыттуу контекст менен авторегрессивдүү генерацияны камсыз кылуучу, кечиктирилген стектөө жана себептик масканы камтыган жаңы эки этаптуу токендерди кайра уюштуруу ыкмасын камтыйт. Бул ыкма ийгиликтүү бириктирилген текст-сүрөт моделдеринде колдонулган себептик маскалоо механизминен шыктанган.
Көп коддуу китептерди моделдештирүү жакшыртуу үчүн, VOICECRAFT себептик масканы жана кечиктирилген стекти айкалыштырат. Модель REALEDIT менен бааланган, бул изилдөөчүлөр тарабынан курулган, аудиокитептерден, YouTube видеолорунан жана Spotify подкасттарынан реалдуу дүйнөдөгү үн түзөтүү инстанцияларын камтыган талап кылынган жана ар түрдүү маалымат топтому. REALEDIT моделдин иштешин ар кандай түзөтүү сценарийлери боюнча баалайт, анын ичинде толуктоолор, жок кылуулар, алмаштыруулар жана текст аралыгын өзгөртүү. Берилиштер топтомунун ар түрдүү материалдары, акценттери, сүйлөө стилдери жана айлана-чөйрөнүн ызы-чуусу аны үн түзөтүү алгоритмдеринин максатка ылайыктуулугун баалоо үчүн эффективдүү куралга айлантат.
Адамдын угуусунун субъективдүү тесттеринде VOICECRAFT үндү оңдоонун мурунку моделдеринен, анын ичинде кайталанган VALL-E жана XTTS v2 коммерциялык модели сыяктуу күчтүү базалык көрсөткүчтөрдөн, нөлдүк TTS жана кепти түзөтүүнү талап кылбастан, ашып өттү. Модельдин өзгөртүлгөн сөзү оригиналдуу жазууларды туурап, анын натыйжалуулугун көрсөтөт.
Бирок, команда VOICECRAFTтин чектөөлөрүн тааныйт, алар үзгүлтүксүз унчукпай турган мезгилдерди, андан кийин жаратылган кепте тырмалуу үндөрдү камтыйт. Андан тышкары, VOICECRAFT сыяктуу татаал моделдерди киргизүү AI коопсуздугу үчүн жаңы тоскоолдуктарды жаратат, айрыкча суу белгисин коюуда жана синтетикалык кепти таанууда. Окумуштуулар AI коопсуздугу жана кеп синтези боюнча келечектеги изилдөөнү жеңилдетүү үчүн алардын кодун жана моделдин салмагын жеткиликтүү кылып коюшту.