18 сакавіка 2024 г
«Хуткі сінтэз малюнкаў з высокім разрозненнем з прыхаванай спаборніцкай дыфузійнай дыстыляцыяй» прадстаўляе новы падыход дыстыляцыі, вядомы як прыхаваная спаборніцкая дыфузійная дыстыляцыя (LADD). Гэты падыход прызначаны для ліквідацыі абмежаванняў існуючых дыфузійных мадэляў, асабліва праблемы нізкай хуткасці вываду, якая перашкаджае праграмам у рэальным часе. LADD забяспечвае сінтэз відарысаў з высокай раздзяляльнасцю і суадносінамі бакоў шляхам эфектыўнай дыстыляцыі вялікіх мадэляў схаванай дыфузіі (LDM), што значна спрашчае працэс навучання і павышае прадукцыйнасць у параўнанні з папярэднімі метадамі .
Мы абагульнім асноўныя высновы з гэтага артыкула.
Уводзіны
Дыфузійныя мадэлі з'явіліся як магутны інструмент для сінтэзу і рэдагавання відарысаў і відэа, прапаноўваючы высакаякасныя вынікі. Аднак іх ітэрацыйная прырода, якая патрабуе шматлікіх ацэнак сеткі для пераўтварэння шуму ў кагерэнтныя выявы, абмежавала іх практычнасць для прыкладанняў у рэжыме рэальнага часу. Для паскарэння мадэляў дыфузіі былі прапанаваны розныя стратэгіі. LADD прадстаўляе новую стратэгію, якая выкарыстоўвае генератыўныя магчымасці з папярэдне падрыхтаваных LDM, што дазваляе эфектыўна сінтэзаваць выявы з высокім разрозненнем за долю крокаў, неабходных традыцыйным метадам.
Фон
Дакумент пачынаецца з агляду мадэляў дыфузіі і іх дыстыляцыі. Традыцыйныя мадэлі дыфузіі працуюць шляхам паступовага знішчэння шуму выявы праз мноства ітэрацыйных этапаў, што робіць працэс павольным і дарагім з вылічальных затрат. Метады дыстыляцыі, у тым ліку супрацьлегальная дыфузійная дыстыляцыя (ADD), накіраваны на ўпарадкаванне гэтага працэсу шляхам скарачэння колькасці неабходных этапаў. Аднак ADD сутыкаецца з такімі абмежаваннямі, як фіксаванае навучальнае раздзяленне і неабходнасць дэкадавання ў прастору RGB для перагонкі мадэляў схаванай дыфузіі, што можа абмежаваць навучанне з высокім разрозненнем.
Метадалогія
LADD вырашае гэтыя праблемы шляхам дыстыляцыі непасрэдна ў латэнтнай прасторы, тым самым пазбягаючы неабходнасці дэкадавання ў піксельную прастору і дазваляючы навучанне ў больш высокіх раздзяленнях. У адрозненне ад ADD, які абапіраецца на папярэдне падрыхтаваны дыскрымінатар, які працуе ў піксельнай прасторы, LADD выкарыстоўвае новы падыход, дзе дыскрымінатар і мадэль настаўніка аб'яднаны і працуюць непасрэдна на латэнтах. Гэты метад не толькі спрашчае працэс навучання, але і забяспечвае шэраг пераваг, у тым ліку эфектыўнасць, магчымасць забяспечваць спецыфічную зваротную сувязь па ўзроўні шуму і здольнасць да навучання Multi-Aspect Ratio (MAR).
Эксперыменты і вынікі
Дакумент шырока ацэньвае LADD праз розныя эксперыменты, дэманструючы яго выдатную прадукцыйнасць у сінтэзе малюнкаў з высокім раздзяленнем усяго за некалькі крокаў. Характэрна, што пры ўжыванні да Stable Diffusion 3 (SD3) LADD прыводзіць да мадэлі пад назвай SD3-Turbo, якая дасягае якасці выявы, параўнальнай з дзяржаўным самыя сучасныя генератары тэксту ў малюнак усяго ў чатыры кроку. Эксперыменты таксама даследуюць уплыў розных размеркаванняў шуму выкладчыкаў, выкарыстанне сінтэтычных даных, падыходы схаванай дыстыляцыі і паводзіны маштабавання LADD.
Параўнанне з самым сучасным
Эфектыўнасць LADD дадаткова падкрэсліваецца параўнаннем з сучаснымі вядучымі метадамі сінтэзу тэксту ў відарыс і відарыса ў відарыс. SD3-Turbo не толькі адпавядае прадукцыйнасці сваёй настаўніцкай мадэлі (SD3) па якасці выявы, але таксама дэманструе значныя паляпшэнні ў параўнанні з іншымі базавымі паказчыкамі з пункту гледжання хуткасці вываду і выраўноўвання выявы і тэксту.
Абмежаванні і будучыя напрамкі
Нягледзячы на свой прагрэс, LADD не пазбаўлены абмежаванняў. Аўтары адзначаюць кампраміс паміж ёмістасцю мадэлі, хуткім выраўноўваннем і хуткасцю вываду, што можа паўплываць на здольнасць мадэлі спраўляцца з пэўнымі праблемамі сінтэзу тэксту ў малюнак. Будучыя кірункі даследаванняў ўключаюць у сябе больш глыбокае вывучэнне гэтага кампрамісу і распрацоўку стратэгій для павышэння кантролю над перавагамі малюнкаў і тэкставых інструкцый.
Выснова
«Хуткі сінтэз выявы з высокім раздзяленнем са схаванай спаборніцкай дыфузійнай дыстыляцыяй» прадстаўляе новы падыход да сінтэзу выявы/відэа, які значна паскарае стварэнне высакаякасных малюнкаў з тэкставых падказак. Пераганяючы вялікія дыфузійныя мадэлі ў латэнтнай прасторы, LADD адкрывае шлях для прыкладанняў у рэальным часе і ўсталёўвае новы стандарт эфектыўнасці і прадукцыйнасці сінтэзу малюнкаў.