Candidate-se aos nossos novos grupos de Data Science e Cybersecurity a tempo parcial

Síntese rápida de imagens de alta resolução com destilação de difusão adversarial latente

Síntese rápida de imagens de alta resolução com destilação de difusão adversarial latente

Ligação Arxiv

18 de março de 2024

"Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation" apresenta uma nova abordagem de destilação conhecida como Latent Adversarial Diffusion Distillation (LADD). Esta abordagem foi concebida para resolver as limitações dos modelos de difusão existentes, nomeadamente o desafio da baixa velocidade de inferência, que dificulta as aplicações em tempo real. A LADD permite a síntese de imagens de alta resolução e de rácio multiaspecto através da destilação eficiente de grandes modelos de difusão latente (LDMs), simplificando significativamente o processo de formação e melhorando o desempenho em comparação com os métodos anteriores.

Vamos resumir as principais conclusões deste documento.

Introdução

Os modelos de difusão surgiram como uma ferramenta poderosa para a síntese e edição de imagens e vídeos, oferecendo resultados de alta qualidade. No entanto, a sua natureza iterativa, que requer numerosas avaliações da rede para transformar o ruído em imagens coerentes, tem limitado a sua praticidade para aplicações em tempo real. Várias estratégias têm sido propostas para acelerar os modelos de difusão. O LADD introduz uma nova estratégia, aproveitando características generativas de LDMs pré-treinados, permitindo uma síntese eficiente de imagens de alta resolução numa fração dos passos exigidos pelos métodos tradicionais.

Antecedentes

O documento começa por apresentar uma panorâmica dos modelos de difusão e da sua destilação. Os modelos de difusão tradicionais funcionam através da redução gradual do ruído de uma imagem por meio de muitas etapas iterativas, o que torna o processo lento e computacionalmente dispendioso. Os métodos de destilação, incluindo a destilação por difusão adversarial (ADD), têm procurado simplificar este processo reduzindo o número de passos necessários. No entanto, a ADD enfrenta limitações, como uma resolução de treino fixa e a necessidade de descodificação para o espaço RGB para destilar modelos de difusão latente, o que pode limitar o treino de alta resolução.

Metodologia

O LADD aborda estas questões através da destilação direta no espaço latente, evitando assim a necessidade de descodificar para o espaço de píxeis e permitindo a formação em resoluções mais elevadas. Ao contrário do ADD, que se baseia num discriminador pré-treinado que opera no espaço de píxeis, o LADD utiliza uma nova abordagem em que o discriminador e o modelo do professor são unificados, operando diretamente nas latentes. Este método não só simplifica o processo de formação, como também oferece várias vantagens, incluindo a eficiência, a capacidade de fornecer feedback específico ao nível do ruído e a capacidade de formação com rácio de múltiplos aspectos (MAR).

Experiências e resultados

O documento avalia extensivamente o LADD através de várias experiências, demonstrando o seu desempenho superior na síntese de imagens de alta resolução em apenas alguns passos. Nomeadamente, quando aplicado ao Stable Diffusion 3 (SD3), o LADD resulta num modelo denominado SD3-Turbo, que atinge uma qualidade de imagem comparável à dos geradores de texto-imagem mais avançados em apenas quatro passos. As experiências também exploram o impacto de diferentes distribuições de ruído do professor, a utilização de dados sintéticos, abordagens de destilação latente e o comportamento de escala do LADD.

Comparação com o estado da arte

A eficácia do LADD é ainda sublinhada por uma comparação com os métodos líderes actuais na síntese texto-imagem e imagem-imagem. O SD3-Turbo não só iguala o desempenho do seu modelo de professor (SD3) na qualidade da imagem, como também demonstra melhorias significativas em relação a outras linhas de base em termos de velocidade de inferência e alinhamento imagem-texto.

Limitações e direcções futuras

Apesar dos seus avanços, o LADD não está isento de limitações. Os autores notam um compromisso entre a capacidade do modelo, o alinhamento imediato e a velocidade de inferência, o que pode afetar a capacidade do modelo para lidar com determinados desafios de síntese de texto para imagem. As futuras direcções de investigação incluem a exploração mais aprofundada deste compromisso e o desenvolvimento de estratégias para melhorar o controlo sobre os pontos fortes de orientação da imagem e do texto.

Conclusão

O projeto "Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation" apresenta uma nova abordagem à síntese de imagem/vídeo que acelera significativamente a geração de imagens de alta qualidade a partir de mensagens de texto. Ao destilar grandes modelos de difusão no espaço latente, o LADD abre caminho para aplicações em tempo real e estabelece um novo padrão de eficiência e desempenho na síntese de imagens.

Code Labs Academy © 2024 Todos os direitos reservados.