Bereizmen handiko irudien sintesia azkarra ezkutuko aurkako difusioaren destilazioarekin

Bereizmen handiko irudien sintesia azkarra ezkutuko aurkako difusioaren destilazioarekin

Arxiv esteka

2024ko martxoaren 18a

"Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation"-ek Latent Adversarial Diffusion Distillation (LADD) izenez ezagutzen den destilazio ikuspegi berri bat aurkezten du. Ikuspegi hau lehendik dauden difusio-ereduen mugei aurre egiteko diseinatuta dago, batez ere inferentzia abiadura motelaren erronkari, denbora errealeko aplikazioak oztopatzen dituena. LADD-k bereizmen handiko eta aspektu-erlazio anitzeko irudien sintesia ahalbidetzen du [latente difusio-eredu] handiak (https://arxiv.org/abs/2112.10752) (LDM) modu eraginkorrean destilatuz, prestakuntza-prozesua nabarmen erraztuz eta errendimendua hobetuz aurreko metodoekin alderatuta. .

Paper honetatik ateratako gakoak laburbilduko ditugu.

Sarrera

Difusio-ereduak irudiak eta bideoak sintesi eta editatzeko tresna indartsu gisa sortu dira, kalitate handiko emaitzak eskainiz. Dena den, haien izaera iteratiboak, sare-ebaluazio ugari eskatzen ditu zarata irudi koherenteetan eraldatzeko, denbora errealeko aplikazioetarako praktikotasuna mugatu du. Difusio-ereduak bizkortzeko hainbat estrategia proposatu dira. LADD-k estrategia berri bat aurkezten du, aurrez prestatutako LDMen sorkuntza-ezaugarriak aprobetxatuz, bereizmen handiko irudien sintesia eraginkorra ahalbidetuz metodo tradizionalek eskatzen dituzten urratsen zati batean.

Atzeko planoa

Artikulua difusio-ereduen eta haien [distilazioa] ikuspegi orokorra eskaintzen hasten da (https://en.wikipedia.org/wiki/Knowledge_distillation). Difusio-eredu tradizionalak irudi bat pixkanaka-pixkanaka kentzen du urrats iteratibo askoren bidez, prozesua moteldu eta konputazionalki garestia eginez. Destilazio-metodoek, Adversarial Diffusion Distillation (ADD) barne, prozesu hau arintzen saiatu dira beharrezkoak diren urrats kopurua murriztuz. Hala ere, ADD-k mugak ditu, esate baterako, prestakuntza-bereizmen finkoa eta RGB espaziora deskodetzearen beharra difusio-eredu latenteak destilatzeko, eta horrek bereizmen handiko prestakuntza muga dezake.

Metodologia

LADD-k arazo horiei aurre egiten die zuzenean ezkutuko espazioan destilatuz, horrela pixel-espaziora deskodetu beharra saihestuz, eta bereizmen handiagoetan entrenatzeko aukera emanez. ADD ez bezala, zeinak pixel espazioan funtzionatzen duen aurrez prestatutako diskriminatzaile batean oinarritzen dena, LADD-k ikuspegi berri bat erabiltzen du, non diskriminatzailea eta irakaslearen eredua bateratzen diren, zuzenean ezkutuan funtzionatzen duena. Metodo honek prestakuntza-prozesua sinplifikatzeaz gain, hainbat abantaila ere eskaintzen ditu, besteak beste, eraginkortasuna, zarata-mailako feedback espezifikoa emateko gaitasuna eta Aspektu Anitzeko Ratio (MAR) prestakuntzarako gaitasuna.

Esperimentuak eta emaitzak

Artikuluak LADD asko ebaluatzen du hainbat esperimenturen bidez, eta bereizmen handiko irudiak sintetizatzeko duen errendimendu handiagoa erakusten du urrats gutxi batzuekin. Nabarmentzekoa, Stable Diffusion 3 (SD3) aplikazioan aplikatzen denean, LADD-k SD3-Turbo izeneko eredua lortzen du, zeinak estatuaren irudi-kalitate parekoa lortzen du. puntako testu-irudi-sorgailuak lau urrats besterik ez ditu. Esperimentuek irakasleen zarata-banaketa ezberdinen eragina, datu sintetikoen erabilera, destilazio ezkutuko ikuspegiak eta LADDren eskalatze-portaera ere aztertzen dituzte.

Artearen egoerarekin alderatzea

LADD-ren eraginkortasuna are gehiago azpimarratzen da testu-irudi eta irudi-irudi sintesian egungo metodo nagusiekin alderatuz. SD3-Turbok bere irakasle-ereduaren (SD3) errendimenduarekin bat datorrela irudiaren kalitatean, baizik eta hobekuntza nabarmenak erakusten ditu beste oinarri-lerroen aldean inferentzia-abiadurari eta irudi-testuaren lerrokatzeari dagokionez.

Mugak eta etorkizuneko norabideak

Aurrerapenak izan arren, LADD ez dago mugarik. Egileek ereduaren gaitasunaren, lerrokatzearen eta inferentzia-abiaduraren arteko truke-off bat nabaritu dute, eta horrek eragina izan dezake ereduak testu-irudiaren sintesi-erronka jakin batzuk kudeatzeko duen gaitasunan. Etorkizuneko ikerketen norabideen artean, merkataritza-konpromiso hori sakonago aztertzea eta irudiaren eta testu-gidarien indarguneen kontrola hobetzeko estrategiak garatzea daude.

Ondorioa

"Erresoluzio handiko irudien sintesia bizkorra kontrako difusio ezkutuko destilazioarekin" irudi/bideoen sintesiaren ikuspegi berri bat aurkezten du, eta kalitate handiko irudiak sortzea nabarmen bizkortzen du testu-aginduetatik. Espazio ezkutuan difusio-eredu handiak destilatuz, LADDek denbora errealeko aplikazioetarako bidea irekitzen du eta irudien sintesian eraginkortasun eta errendimendu estandar berri bat ezartzen du.

Code Labs Academy © 2024 Eskubide guztiak erreserbatuta.