Síntesi ràpida d'imatges d'alta resolució amb destil·lació de difusió adversària latent

Actualitzat a November 19, 2024 4 minuts de lectura

18 de març de 2024

"Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation" presenta un nou enfocament de destil·lació conegut com a Latent Adversarial Diffusion Distillation (LADD). Aquest enfocament està dissenyat per abordar les limitacions dels [models de difusió] existents (https://en.wikipedia.org/wiki/Diffusion_model), especialment el repte de la velocitat d'inferència lenta, que dificulta les aplicacions en temps real. LADD permet la síntesi d'imatges d'alta resolució i amb relació d'aspectes múltiples mitjançant la destil·lació eficient de grans models de difusió latent (LDM), simplificant significativament el procés d'entrenament i millorant el rendiment en comparació amb mètodes anteriors. .

Resumirem els punts clau d'aquest article.

Introducció

Els models de difusió han sorgit com una potent eina per a la síntesi i l'edició d'imatges i vídeos, oferint resultats d'alta qualitat. Tanmateix, la seva naturalesa iterativa, que requereix nombroses avaluacions de xarxa per transformar el soroll en imatges coherents, ha limitat la seva pràctica per a aplicacions en temps real. S'han proposat diverses estratègies per accelerar els models de difusió. LADD introdueix una nova estratègia, aprofitant les característiques generatives de LDM preentrenats, permetent una síntesi eficient d'imatges d'alta resolució en una fracció dels passos requerits pels mètodes tradicionals.

Fons

El document comença proporcionant una visió general dels models de difusió i la seva destil·lació. Els models de difusió tradicionals funcionen eliminant gradualment una imatge a través de molts passos iteratius, fent que el procés sigui lent i costós computacionalment. Els mètodes de destil·lació, inclosa la Adversarial Diffusion Distillation (ADD), han intentat racionalitzar aquest procés reduint el nombre de passos necessaris. Tanmateix, ADD s'enfronta a limitacions com ara una resolució d'entrenament fixa i la necessitat de descodificar a l'espai RGB per destil·lar models de difusió latent, que poden limitar l'entrenament d'alta resolució.

Metodologia

LADD aborda aquests problemes destil·lant directament a l'espai latent, evitant així la necessitat de descodificar a l'espai de píxels i permetent l'entrenament a resolucions més altes. A diferència de l'ADD, que es basa en un discriminador preentrenat que funciona a l'espai de píxels, LADD utilitza un enfocament nou on el discriminador i el model del professor s'unifiquen, operant directament sobre latents. Aquest mètode no només simplifica el procés d'entrenament, sinó que també ofereix diversos avantatges, com ara l'eficiència, la capacitat de proporcionar retroalimentació específica del nivell de soroll i la capacitat d'entrenament de la relació d'aspectes múltiples (MAR).

Experiments i resultats

El document avalua àmpliament LADD mitjançant diversos experiments, demostrant el seu rendiment superior en sintetitzar imatges d'alta resolució amb només uns quants passos. En particular, quan s'aplica a Stable Diffusion 3 (SD3), LADD dóna com a resultat un model anomenat SD3-Turbo, que aconsegueix una qualitat d'imatge comparable a l'estat- generadors de text a imatge d'última generació en només quatre passos. Els experiments també exploren l'impacte de diferents distribucions de soroll dels professors, l'ús de dades sintètiques, els enfocaments de destil·lació latent i el comportament d'escala de LADD.

Comparació amb l'estat de la tècnica

L'eficàcia de LADD es subratlla encara més mitjançant una comparació amb els mètodes líders actuals en síntesi text a imatge i imatge a imatge. SD3-Turbo no només coincideix amb el rendiment del seu model de professor (SD3) en qualitat d'imatge, sinó que també demostra millores significatives respecte a altres línies de base en termes de velocitat d'inferència i alineació imatge-text.

Limitacions i orientacions futures

Malgrat els seus avenços, LADD no està exempt de limitacions. Els autors observen una compensació entre la capacitat del model, l'alineació ràpida i la velocitat d'inferència, que podria afectar la capacitat del model per gestionar certs reptes de síntesi de text a imatge. Les futures direccions de recerca inclouen explorar aquesta compensació més profundament i desenvolupar estratègies per millorar el control sobre els punts forts de la guia d'imatge i text.

Conclusió

"Síntesi ràpida d'imatges d'alta resolució amb destil·lació de difusió adversa latent" introdueix un nou enfocament a la síntesi d'imatge/vídeo que accelera significativament la generació d'imatges d'alta qualitat a partir de les indicacions de text. Mitjançant la destil·lació de grans models de difusió a l'espai latent, LADD obre el camí per a aplicacions en temps real i estableix un nou estàndard d'eficiència i rendiment en la síntesi d'imatges.

Code Labs Academy: camp d'inici de codificació en línia amb plans de pagament flexibles