具有潜在对抗扩散蒸馏的快速高分辨率图像合成

具有潜在对抗扩散蒸馏的快速高分辨率图像合成

Arxiv 链接

2024 年 3 月 18 日

“使用潜在对抗扩散蒸馏进行快速高分辨率图像合成”提出了一种称为潜在对抗扩散蒸馏(LADD)的新颖蒸馏方法。这种方法旨在解决现有扩散模型的局限性,特别是推理速度慢的挑战,这会阻碍实时应用程序。 LADD 通过有效地提取大型潜在扩散模型 (LDM) 来实现高分辨率、多纵横比图像合成,与以前的方法相比,显着简化了训练过程并提高了性能。

我们将总结本文的主要内容。

## 介绍

扩散模型已成为图像和视频合成和编辑的强大工具,可提供高质量的结果。然而,它们的迭代性质,需要大量的网络评估才能将噪声转换为相干图像,限制了它们在实时应用中的实用性。人们提出了各种策略来加速扩散模型。 LADD 引入了一种新策略,利用预训练 LDM 的生成特征,只需传统方法所需步骤的一小部分即可实现高效的高分辨率图像合成。

## 背景

本文首先概述了扩散模型及其蒸馏。传统的扩散模型通过许多迭代步骤逐渐对图像进行去噪,从而使过程缓慢且计算成本昂贵。蒸馏方法,包括对抗扩散蒸馏 (ADD),试图通过减少所需步骤数来简化此过程。然而,ADD 面临着一些限制,例如固定的训练分辨率,以及需要解码到 RGB 空间以提取潜在扩散模型,这可能会限制高分辨率训练。

方法论

LADD 通过直接在潜在空间中提取来解决这些问题,从而避免解码到像素空间,并允许以更高分辨率进行训练。与依赖于在像素空间中运行的预训练判别器的 ADD 不同,LADD 采用了一种新颖的方法,其中判别器和教师模型是统一的,直接对潜在变量进行操作。该方法不仅简化了训练过程,还提供了多种优势,包括效率、提供特定噪声级别反馈的能力以及多宽高比(MAR)训练的能力。

实验和结果

论文通过各种实验对 LADD 进行了广泛的评估,证明了其只需几个步骤即可合成高分辨率图像的优越性能。值得注意的是,当应用于 Stable Diffusion 3 (SD3) 时,LADD 产生了一个名为 SD3-Turbo 的模型,该模型实现了与状态相当的图像质量 -只需四个步骤即可实现最先进的文本到图像生成器。实验还探讨了不同教师噪声分布、合成数据的使用、潜在蒸馏方法以及 LADD 的缩放行为的影响。

与最先进的比较

通过与文本到图像和图像到图像合成中当前领先方法的比较,进一步强调了 LADD 的有效性。 SD3-Turbo 不仅在图像质量方面与其教师模型 (SD3) 的性能相匹配,而且在推理速度和图像文本对齐方面比其他基线有了显着改进。

局限性和未来方向

尽管取得了进步,LADD 也并非没有局限性。作者注意到模型容量、提示对齐和推理速度之间的权衡,这可能会影响模型处理某些文本到图像合成挑战的能力。未来的研究方向包括更深入地探索这种权衡,并制定增强对图像和文本引导优势的控制的策略。

## 结论

“具有潜在对抗扩散蒸馏的快速高分辨率图像合成”引入了一种新的图像/视频合成方法,可显着加速根据文本提示生成高质量图像。通过在潜在空间中提取大型扩散模型,LADD 为实时应用铺平了道路,并为图像合成的效率和性能树立了新标准。

Code Labs Academy © 2024 版权所有.