Síntese rápida de imagens de alta resolução com destilação por difusão adversária latente

Atualizado em November 19, 2024 4 Minutos Leia

18 de março de 2024

“Síntese rápida de imagens de alta resolução com destilação por difusão adversária latente” apresenta uma nova abordagem de destilação conhecida como destilação por difusão adversária latente (LADD). Esta abordagem foi projetada para abordar as limitações dos modelos de difusão existentes, particularmente o desafio da velocidade lenta de inferência, que dificulta aplicações em tempo real. O LADD permite a síntese de imagens de alta resolução e múltiplas proporções, destilando eficientemente grandes modelos de difusão latente (LDMs), simplificando significativamente o processo de treinamento e melhorando o desempenho em comparação com métodos anteriores .

Resumiremos as principais conclusões deste artigo.

Introdução

Os modelos de difusão surgiram como uma ferramenta poderosa para síntese e edição de imagens e vídeos, oferecendo resultados de alta qualidade. No entanto, a sua natureza iterativa, exigindo inúmeras avaliações de rede para transformar o ruído em imagens coerentes, limitou a sua praticidade para aplicações em tempo real. Várias estratégias foram propostas para acelerar modelos de difusão. LADD introduz uma nova estratégia, aproveitando recursos generativos de LDMs pré-treinados, permitindo a síntese eficiente de imagens de alta resolução em uma fração das etapas exigidas pelos métodos tradicionais.

Fundo

O artigo começa fornecendo uma visão geral dos modelos de difusão e sua destilação. Os modelos de difusão tradicionais operam eliminando gradualmente o ruído de uma imagem através de muitas etapas iterativas, tornando o processo lento e computacionalmente caro. Os métodos de destilação, incluindo Destilação por Difusão Adversarial (ADD), procuraram agilizar esse processo, reduzindo o número de etapas necessárias. No entanto, o ADD enfrenta limitações como uma resolução fixa de treinamento e a necessidade de decodificação para o espaço RGB para destilar modelos de difusão latente, o que pode limitar o treinamento de alta resolução.

Metodologia

O LADD resolve esses problemas destilando diretamente no espaço latente, evitando assim a necessidade de decodificação para o espaço de pixel e permitindo o treinamento em resoluções mais altas. Ao contrário do ADD, que depende de um discriminador pré-treinado operando no espaço de pixels, o LADD utiliza uma nova abordagem onde o discriminador e o modelo do professor são unificados, operando diretamente nos latentes. Este método não apenas simplifica o processo de treinamento, mas também oferece diversas vantagens, incluindo eficiência, a capacidade de fornecer feedback específico do nível de ruído e a capacidade de treinamento de Multi-Aspect Ratio (MAR).

Experimentos e resultados

O artigo avalia extensivamente o LADD por meio de vários experimentos, demonstrando seu desempenho superior na síntese de imagens de alta resolução em apenas algumas etapas. Notavelmente, quando aplicado a Stable Diffusion 3 (SD3), o LADD resulta em um modelo denominado SD3-Turbo, que atinge qualidade de imagem comparável ao estado- geradores de texto para imagem de última geração em apenas quatro etapas. Os experimentos também exploram o impacto de diferentes distribuições de ruído dos professores, o uso de dados sintéticos, abordagens de destilação latente e o comportamento de escala do LADD.

Comparação com o estado da arte

A eficácia do LADD é ainda sublinhada por uma comparação com os principais métodos atuais de síntese de texto para imagem e de imagem para imagem. O SD3-Turbo não apenas corresponde ao desempenho de seu modelo de professor (SD3) em qualidade de imagem, mas também demonstra melhorias significativas em relação a outras linhas de base em termos de velocidade de inferência e alinhamento imagem-texto.

Limitações e direções futuras

Apesar de seus avanços, o LADD não está isento de limitações. Os autores observam uma compensação entre a capacidade do modelo, o alinhamento imediato e a velocidade de inferência, o que poderia impactar a capacidade do modelo de lidar com certos desafios de síntese de texto para imagem. As direções de pesquisas futuras incluem explorar esse compromisso mais profundamente e desenvolver estratégias para aumentar o controle sobre os pontos fortes da orientação de imagem e texto.

Conclusão

“Síntese rápida de imagens de alta resolução com destilação de difusão adversária latente” apresenta uma nova abordagem para síntese de imagem/vídeo que acelera significativamente a geração de imagens de alta qualidade a partir de prompts de texto. Ao destilar grandes modelos de difusão no espaço latente, o LADD abre caminho para aplicações em tempo real e estabelece um novo padrão de eficiência e desempenho na síntese de imagens.

Code Labs Academy: Bootcamp de codificação on-line com planos de pagamento flexíveis