Incontra DragonDiffusion un metodo di modifica delle immagini a grana fine che consente la manipolazione in stile trascinamento su modelli di diffusione.

Incontra DragonDiffusion, un metodo di modifica delle immagini che consente la manipolazione tramite trascinamento su modelli di diffusione a grana fine.

I modelli di diffusione del testo all’immagine (T2I) su larga scala, che mirano a generare immagini in base a un testo/promemoria fornito, hanno visto uno sviluppo rapido grazie alla disponibilità di grandi quantità di dati di addestramento e di capacità di calcolo massicce. Tuttavia, questa capacità generativa è spesso varia, rendendo difficile sviluppare prompt appropriati per generare immagini compatibili con ciò che l’utente ha in mente e ulteriori modifiche basate su immagini esistenti.

La modifica delle immagini ha requisiti più vari rispetto alla creazione di immagini. Poiché lo spazio latente è piccolo e facilmente manipolabile, i metodi basati su GAN hanno trovato un’applicazione diffusa nella modifica delle immagini. I modelli di diffusione sono più stabili e generano output di migliore qualità rispetto ai modelli GAN.

Un nuovo articolo di ricerca dell’Università di Pechino e del Laboratorio ARC, Tencent PCG, mira a determinare se il modello di diffusione può avere le stesse capacità di trascinamento.

La difficoltà fondamentale nell’implementazione di ciò richiede uno spazio latente compatto e modificabile. Sono stati sviluppati molti approcci di modifica delle immagini basati sulla somiglianza tra queste proprietà intermedie di testo e immagine. Gli studi hanno scoperto una forte somiglianza locale tra le caratteristiche delle parole e degli oggetti nella mappa di attenzione incrociata, che può essere utilizzata nella modifica.

Sebbene ci sia una correlazione robusta tra le caratteristiche del testo e le caratteristiche intermedie delle immagini nel processo di generazione di diffusione T2I su larga scala, c’è anche una corrispondenza robusta tra le caratteristiche intermedie delle immagini. Questa caratteristica è stata investigata in DIFT, dimostrando che la corrispondenza tra queste caratteristiche è ad un alto grado e consentendo il confronto diretto di regioni simili tra le immagini. Grazie a questa alta somiglianza tra gli elementi dell’immagine, il team utilizza questo metodo per effettuare la modifica dell’immagine.

Per adattare la rappresentazione intermedia del modello di diffusione, i ricercatori ideano una strategia basata su guida di classificatori chiamata DragonDiffusion che converte i segnali di modifica in gradienti tramite una perdita di corrispondenza delle caratteristiche. L’approccio proposto alla diffusione utilizza due gruppi di caratteristiche (ovvero caratteristiche di guida e caratteristiche di generazione) in diverse fasi. Con una robusta corrispondenza delle caratteristiche dell’immagine come guida, rivedono e perfezionano le caratteristiche di generazione basate sulle caratteristiche di guida. Una forte corrispondenza delle caratteristiche dell’immagine aiuta anche a preservare la coerenza dei contenuti tra l’immagine modificata e l’originale.

In questo contesto, i ricercatori scoprono anche che un altro lavoro chiamato Drag-Diffusion investiga contemporaneamente lo stesso argomento. Utilizza LORA per mantenere l’aspetto iniziale delle cose e migliora il processo di modifica ottimizzando un singolo passo intermedio nella procedura di diffusione. Invece di affinare o addestrare il modello, come con DragDiffusion, il metodo proposto in questo lavoro si basa su una guida di classificatori, con tutti i segnali di modifica e coerenza dei contenuti che provengono direttamente dall’immagine.

DragonDiffusion deriva tutti i segnali di modifica dei contenuti dall’immagine originale. Senza ulteriori regolazioni o addestramento del modello, la capacità di creazione T2I nei modelli di diffusione può essere trasferita direttamente alle applicazioni di modifica delle immagini.

Ampli prove mostrano che il DragonDiffusion proposto può eseguire una vasta gamma di compiti di modifica delle immagini ad alta risoluzione, come ridimensionare e riposizionare oggetti, cambiarne l’aspetto e trascinare i contenuti.