Швидкий синтез зображень високої роздільної здатності з прихованою протилежною дифузійною дистиляцією

Швидкий синтез зображень високої роздільної здатності з прихованою протилежною дифузійною дистиляцією

Посилання на Arxiv

18 березня 2024 р

«Швидкий синтез зображень високої роздільної здатності з прихованою змагальною дифузійною дистиляцією» представляє новий підхід дистиляції, відомий як прихована змагальна дифузійна дистиляція (LADD). Цей підхід розроблено для усунення обмежень існуючих дифузійних моделей, зокрема проблеми низької швидкості висновку, яка перешкоджає додаткам у реальному часі. LADD дає змогу синтезувати зображення з високою роздільною здатністю та багатоаспектним співвідношенням шляхом ефективної дистиляції великих моделей латентної дифузії (LDM), значно спрощуючи процес навчання та підвищуючи продуктивність порівняно з попередніми методами .

Ми підсумуємо ключові висновки з цієї статті.

Вступ

Дифузійні моделі стали потужним інструментом для синтезу та редагування зображень і відео, що забезпечує високоякісні результати. Однак їхня ітераційна природа, яка потребує численних мережевих оцінок для перетворення шуму в когерентні зображення, обмежує їх практичність для програм реального часу. Були запропоновані різні стратегії для прискорення дифузійних моделей. LADD представляє нову стратегію, яка використовує генеративні функції попередньо навчених LDM, що дозволяє ефективно синтезувати зображення з високою роздільною здатністю за частку кроків, необхідних традиційним методам.

Фон

Стаття починається з огляду моделей дифузії та їх дистиляції. Традиційні дифузійні моделі працюють шляхом поступового зменшення шуму зображення через багато ітераційних кроків, що робить процес повільним і дорогим за обчисленнями. Методи дистиляції, у тому числі Adversarial Diffusion Distillation (ADD), спрямовані на оптимізацію цього процесу шляхом зменшення кількості необхідних етапів. Однак ADD стикається з обмеженнями, такими як фіксована роздільна здатність навчання та необхідність декодування в простір RGB для дистиляції моделей прихованої дифузії, що може обмежити навчання високої роздільної здатності.

Методика

LADD вирішує ці проблеми шляхом дистиляції безпосередньо в латентному просторі, тим самим уникаючи необхідності декодувати в простір пікселів і дозволяючи навчання з вищою роздільною здатністю. На відміну від ADD, який покладається на попередньо навчений дискримінатор, що працює в піксельному просторі, LADD використовує новий підхід, коли дискримінатор і модель викладача об’єднані, діючи безпосередньо на латентах. Цей метод не тільки спрощує процес навчання, але також забезпечує кілька переваг, включаючи ефективність, здатність забезпечувати специфічний зворотний зв’язок за рівнем шуму та можливість навчання Multi-Aspect Ratio (MAR).

Експерименти та результати

У документі детально оцінюється LADD за допомогою різноманітних експериментів, демонструючи його чудову продуктивність у синтезі зображень високої роздільної здатності лише за кілька кроків. Примітно, що при застосуванні до Stable Diffusion 3 (SD3) LADD призводить до моделі під назвою SD3-Turbo, яка забезпечує якість зображення, порівнянну зі станом найсучасніші генератори тексту в зображення всього за чотири кроки. Експерименти також досліджують вплив різних розподілів шуму вчителя, використання синтетичних даних, підходи прихованої дистиляції та поведінку масштабування LADD.

Порівняння з найсучаснішим

Ефективність LADD ще більше підкреслюється порівнянням із поточними провідними методами синтезу тексту в зображення та зображення в зображення. SD3-Turbo не тільки відповідає продуктивності моделі викладача (SD3) за якістю зображення, але також демонструє значні покращення порівняно з іншими базовими рівнями щодо швидкості логічного висновку та вирівнювання зображення та тексту.

Обмеження та майбутні напрямки

Незважаючи на свої досягнення, LADD не позбавлений обмежень. Автори відзначають компроміс між ємністю моделі, оперативним вирівнюванням і швидкістю висновку, що може вплинути на здатність моделі справлятися з певними проблемами синтезу тексту в зображення. Майбутні напрямки досліджень включають більш глибоке вивчення цього компромісу та розробку стратегій для посилення контролю над сильними сторонами вказівок із зображеннями та текстом.

Висновок

«Швидкий синтез зображень високої роздільної здатності з дистиляцією прихованої протилежної дифузії» представляє новий підхід до синтезу зображень/відео, який значно прискорює створення високоякісних зображень із текстових підказок. Розміщуючи моделі великої дифузії в латентному просторі, LADD прокладає шлях для програм реального часу та встановлює новий стандарт ефективності та продуктивності синтезу зображень.

Code Labs Academy © 2024 Всі права захищені.