2024. gada 18. marts
"Ātra augstas izšķirtspējas attēla sintēze ar latentu pretrunīgu difūzijas destilāciju" piedāvā jaunu destilācijas pieeju, kas pazīstama kā latentā pretrunīgā difūzijas destilācija (LADD). Šī pieeja ir izstrādāta, lai novērstu esošo difūzijas modeļu ierobežojumus, jo īpaši problēmas saistībā ar lēnu secinājumu ātrumu, kas apgrūtina reāllaika lietojumprogrammas. LADD nodrošina augstas izšķirtspējas, vairāku malu attiecību attēla sintēzi, efektīvi destilējot lielus latentās difūzijas modeļus (LDM), ievērojami vienkāršojot apmācības procesu un uzlabojot veiktspēju salīdzinājumā ar iepriekšējām metodēm. .
Mēs apkoposim šī raksta galvenos ieteikumus.
Ievads
Difūzijas modeļi ir kļuvuši par spēcīgu attēlu un video sintēzes un rediģēšanas rīku, kas piedāvā augstas kvalitātes rezultātus. Tomēr to iteratīvais raksturs, kas prasa daudzus tīkla novērtējumus, lai pārveidotu troksni saskaņotos attēlos, ir ierobežojis to praktiskumu reāllaika lietojumprogrammām. Ir ierosinātas dažādas stratēģijas, lai paātrinātu difūzijas modeļus. LADD ievieš jaunu stratēģiju, izmantojot ģeneratīvās funkcijas no iepriekš apmācītiem LDM, ļaujot veikt efektīvu augstas izšķirtspējas attēlu sintēzi, veicot tikai daļu no darbībām, kas nepieciešamas tradicionālajām metodēm.
Fons
Raksta sākumā ir sniegts pārskats par difūzijas modeļiem un to destilāciju. Tradicionālie difūzijas modeļi darbojas, pakāpeniski samazinot attēla troksni, veicot daudzas iteratīvas darbības, padarot procesu lēnu un skaitļošanas ziņā dārgu. Destilācijas metodes, tostarp Adversarial Diffusion Distillation (ADD), ir mēģinājušas racionalizēt šo procesu, samazinot nepieciešamo darbību skaitu. Tomēr ADD saskaras ar ierobežojumiem, piemēram, fiksētu apmācības izšķirtspēju un nepieciešamību dekodēt RGB telpā latentās difūzijas modeļu destilēšanai, kas var ierobežot augstas izšķirtspējas apmācību.
Metodoloģija
LADD risina šīs problēmas, destilējot tieši latentā telpā, tādējādi izvairoties no nepieciešamības dekodēt pikseļu telpā un ļaujot trenēties ar augstāku izšķirtspēju. Atšķirībā no ADD, kas balstās uz iepriekš apmācītu diskriminatoru, kas darbojas pikseļu telpā, LADD izmanto jaunu pieeju, kurā diskriminatora un skolotāja modelis ir vienoti, darbojoties tieši uz latentiem. Šī metode ne tikai vienkāršo apmācības procesu, bet arī sniedz vairākas priekšrocības, tostarp efektivitāti, spēju nodrošināt trokšņa līmenim specifisku atgriezenisko saiti un spēju apmācīt vairāku aspektu attiecību (MAR).
Eksperimenti un rezultāti
Rakstā tiek plaši novērtēts LADD, izmantojot dažādus eksperimentus, demonstrējot tā izcilo veiktspēju augstas izšķirtspējas attēlu sintezēšanā tikai ar dažiem soļiem. Jo īpaši, kad LADD tiek lietots Stable Diffusion 3 (SD3), tiek iegūts modelis ar nosaukumu SD3-Turbo, kas nodrošina salīdzināmu attēla kvalitāti ar stāvokli modernākie teksta-attēlu ģeneratori tikai četrās darbībās. Eksperimentos tiek pētīta arī dažādu skolotāju trokšņu sadalījumu ietekme, sintētisko datu izmantošana, latentās destilācijas pieejas un LADD mērogošanas uzvedība.
Salīdzinājums ar jaunākajām tehnoloģijām
LADD efektivitāti vēl vairāk uzsver salīdzinājums ar pašreizējām vadošajām teksta-attēla un attēla-attēla sintēzes metodēm. SD3-Turbo ne tikai atbilst sava skolotāja modeļa (SD3) veiktspējai attēla kvalitātē, bet arī demonstrē ievērojamus uzlabojumus salīdzinājumā ar citām bāzes līnijām attiecībā uz secinājumu ātrumu un attēla un teksta izlīdzināšanu.
Ierobežojumi un nākotnes virzieni
Neskatoties uz progresu, LADD nav bez ierobežojumiem. Autori atzīmē kompromisu starp modeļa ietilpību, ātru izlīdzināšanu un secinājumu izdarīšanas ātrumu, kas varētu ietekmēt modeļa spēju risināt noteiktas teksta-attēla sintēzes problēmas. Nākotnes pētniecības virzieni ietver šī kompromisa padziļinātu izpēti un stratēģiju izstrādi, lai uzlabotu attēla un teksta norādījumu priekšrocību kontroli.
Secinājums
"Ātra augstas izšķirtspējas attēlu sintēze ar latentu pretrunīgu difūzijas destilāciju" ievieš jaunu pieeju attēlu/video sintēzei, kas ievērojami paātrina augstas kvalitātes attēlu ģenerēšanu no teksta uzvednēm. Destilējot lielus difūzijas modeļus latentā telpā, LADD paver ceļu reāllaika lietojumiem un nosaka jaunu standartu attēla sintēzes efektivitātei un veiktspējai.