Жашыруун атаандаш диффузиялык дистилляция менен тез жогорку резолюциядагы сүрөт синтези

Жашыруун атаандаш диффузиялык дистилляция менен тез жогорку резолюциядагы сүрөт синтези

Arxiv Шилтеме

18-март, 2024-жыл

"Жашыруун атаандаш диффузиялык дистилляция менен тез жогорку резолюциядагы сүрөт синтези" Латенттик атаандаш диффузиялык дистилляция (LADD) деп аталган жаңы дистилляция ыкмасын сунуштайт. Бул ыкма учурдагы диффузия моделдеринин чектөөлөрүн, өзгөчө реалдуу убакыттагы колдонмолорду тоскоол кылган жай жыйынтык чыгаруунун кыйынчылыгын чечүү үчүн иштелип чыккан. LADD чоң жашыруун диффузиялык моделдерди (LDMs) эффективдүү дистилляциялоо менен жогорку чечилиштеги, көп аспекттүү катыштуу сүрөт синтезин камсыздайт, окутуу процессин кыйла жөнөкөйлөштүрөт жана мурунку методдорго салыштырмалуу натыйжалуулукту жогорулатат. .

Биз бул кагаздан негизги жыйынтыктарды жалпылайбыз.

Киришүү

Диффузия моделдери жогорку сапаттагы натыйжаларды сунуш кылган сүрөттөрдү жана видеолорду синтездөө жана түзөтүү үчүн күчтүү курал катары пайда болду. Бирок, ызы-чууну ырааттуу сүрөттөргө айландыруу үчүн көптөгөн тармактык баалоолорду талап кылган алардын кайталануучу табияты реалдуу убакытта колдонуу үчүн практикалык мүмкүнчүлүгүн чектеди. Диффузия моделдерин тездетүү үчүн ар кандай стратегиялар сунушталган. LADD жаңы стратегияны киргизет, алдын ала даярдалган LDMлердин генеративдик өзгөчөлүктөрүнөн пайдаланып, салттуу методдор талап кылган кадамдардын бир бөлүгүндө эффективдүү жогорку резолюциядагы сүрөт синтезине мүмкүндүк берет.

Фон

Документ диффузиялык моделдер жана алардын дистилляциясы жөнүндө жалпы маалымат берүү менен башталат. Салттуу диффузиялык моделдер көптөгөн итеративдик кадамдар аркылуу сүрөттү акырындык менен жокко чыгаруу менен иштейт, бул процессти жай жана эсептөө үчүн кымбат кылат. Дистилляция ыкмалары, анын ичинде Таршылаш диффузиялык дистилляция (ADD), керектүү кадамдардын санын кыскартуу менен бул процессти тартипке келтирүүгө аракет кылышкан. Бирок, ADD стационардык резолюция сыяктуу чектөөлөргө дуушар болот жана жашыруун диффузиялык моделдерди дистилляциялоо үчүн RGB мейкиндигинде декоддоо зарылчылыгы, бул жогорку резолюциядагы окутууну чектеши мүмкүн.

Методология

LADD бул маселелерди түздөн-түз жашыруун мейкиндикте дистилляциялоо менен чечет, ошону менен пикселдик мейкиндикке декоддоо зарылдыгын болтурбай жана жогорку резолюцияларда машыгууга мүмкүндүк берет. Пикселдик мейкиндикте иштеген алдын ала даярдалган дискриминаторго таянган ADDден айырмаланып, LADD жаңы ыкманы колдонот, анда дискриминатор менен мугалимдин модели бирдиктүү болуп, түздөн-түз жашырылганда иштейт. Бул ыкма окуу процессин жөнөкөйлөтүп гана койбостон, ошондой эле бир нече артыкчылыктарды, анын ичинде эффективдүүлүктү, ызы-чуу деңгээлиндеги спецификалык кайтарым байланышты камсыз кылуу мүмкүнчүлүгүн жана Multi-Aspect Ratio (MAR) тренинги үчүн мүмкүнчүлүктөрдү берет.

Эксперимент жана натыйжалар

Кагаз ар кандай эксперименттер аркылуу LADDге кеңири баа берип, анын бир нече кадамдар менен жогорку чечилиштеги сүрөттөрдү синтездөөдөгү эң жогорку натыйжалуулугун көрсөтөт. Белгилей кетчү нерсе, Stable Diffusion 3 (SD3) үчүн колдонулганда, LADD SD3-Turbo деп аталган моделди пайда кылат, ал абалга салыштырмалуу сүрөт сапатына жетишет. төрт кадамда заманбап тексттен сүрөткө генераторлор. Эксперименттер ошондой эле мугалимдин ызы-чуунун ар кандай бөлүштүрүлүшүнүн таасирин, синтетикалык маалыматтарды колдонууну, жашыруун дистилляциялык ыкмаларды жана LADDдин масштабдуу жүрүм-турумун изилдейт.

Заманбап технология менен салыштыруу

LADD эффективдүүлүгү андан ары тексттен сүрөткө жана сүрөттөн сүрөткө синтезде учурдагы алдыңкы методдор менен салыштыруу аркылуу баса белгиленет. SD3-Turbo сүрөттүн сапаты боюнча мугалим моделинин (SD3) иштешине гана дал келбестен, ошондой эле тыянак чыгаруу ылдамдыгы жана сүрөт-текстти тегиздөө жагынан башка базалык көрсөткүчтөрдөн олуттуу жакшыргандыгын көрсөтөт.

Чектөөлөр жана келечектеги багыттар

Анын жетишкендиктерине карабастан, LADD чектөөлөрсүз эмес. Авторлор моделдин сыйымдуулугу, ыкчам тегиздөө жана жыйынтык чыгаруу ылдамдыгынын ортосундагы айырмачылыкты белгилешет, бул моделдин текстти сүрөткө синтездөөнүн айрым көйгөйлөрүн чечүүгө таасир этиши мүмкүн. Келечектеги изилдөө багыттары бул соодалашууну тереңирээк изилдөөнү жана сүрөт менен текстти башкаруунун күчтүү жактарын көзөмөлдөөнү күчөтүү үчүн стратегияларды иштеп чыгууну камтыйт.

Корутунду

"Жашыруун атаандаш диффузиялык дистилляция менен тез жогорку резолюциядагы сүрөт синтези" тексттик сунуштардан жогорку сапаттагы сүрөттөрдүн жаралышын кыйла тездетүүчү сүрөт/видео синтезине жаңы ыкманы сунуштайт. Жашыруун мейкиндикте чоң диффузиялык моделдерди дистилляциялоо менен LADD реалдуу убакыт режиминдеги колдонмолорго жол ачат жана сүрөттөрдү синтездөөдө натыйжалуулуктун жана аткаруунун жаңы стандартын белгилейт.

Code Labs Academy © 2024 Бардык укуктар корголгон.