Questo articolo sull’IA dell’Università del Nord-est e del MIT sviluppa cursori di concetto interpretabili per un miglior controllo della generazione delle immagini nei modelli di diffusione.

Articolo Gli sviluppi rivoluzionari dell'IA dell'Università del Nord-est e del MIT cursori di concetto per un controllo ottimale delle immagini nei modelli di diffusione.

Il controllo più preciso sulle caratteristiche visive e sulle idee rappresentate in un’immagine prodotta è tipicamente richiesto dagli utenti artistici dei modelli di diffusione testo-immagine, cosa che attualmente non è possibile. Può essere difficile modificare accuratamente qualità continue, come l’età di una persona o l’intensità del clima, utilizzando semplici prompt di testo. Questo vincolo rende difficile per i produttori modificare le immagini per rispecchiare meglio la loro visione. Il team di ricerca della Northeastern University, del Massachusetts Institute of Technology e di un ricercatore indipendente risponde a queste esigenze in questo studio presentando gli “Sliders di idee interpretabili”, che consentono una manipolazione dettagliata delle idee all’interno dei modelli di diffusione. Il loro approccio offre agli artisti un controllo ad alta fedeltà sulla modifica e la generazione delle immagini. Il team di ricerca fornirà i loro sliders addestrati e il codice come open source. Gli Sliders di concetto offrono diverse soluzioni a problemi che altri approcci devono affrontare adeguatamente.

Molte proprietà dell’immagine possono essere controllate direttamente modificando il prompt, ma poiché le uscite sono sensibili alla combinazione prompt-seed, il cambiamento del prompt spesso modifica in modo significativo la struttura generale dell’immagine. Con metodi post-hoc come PromptToPrompt e Pix2Video, è possibile alterare le attenzioni incrociate e invertire il processo di diffusione per modificare le idee visive all’interno di un’immagine. Tuttavia, questi approcci possono solo gestire un numero limitato di modifiche simultanee e richiedono passaggi di inferenza indipendenti per ogni nuova idea. Invece di apprendere un controllo semplice e generalizzabile, il team di ricerca deve progettare un prompt adatto a un’immagine specifica. Se non viene richiesto correttamente, può creare intrichi concettuali, come ad esempio cambiare l’età mentre si cambia la razza.

D’altra parte, gli Sliders di concetto offrono adattatori semplici e plug-and-play che sono leggeri e possono essere applicati a modelli pre-addestrati. Ciò consente un controllo preciso e continuo sui concetti desiderati in una singola esecuzione inferenziale, con poco intrico e composizione efficiente. Ogni Slider di concetto è una modifica del modello di diffusione con un basso grado. Il team di ricerca scopre che il vincolo del basso grado è un componente essenziale del controllo di precisione sui concetti: l’addestramento a basso grado identifica il sottospazio concettuale minimo e produce un’editing di alta qualità, controllato e disentangled, mentre il tuning senza regolarizzazione a basso grado riduce la precisione e la qualità generativa dell’immagine. Questo framework a basso grado non si applica alle tecniche di modifica dell’immagine post-hoc che operano su singole foto anziché su parametri del modello.

Gli Sliders di concetto si differenziano dalle tecniche di modifica dei concetti precedenti che si basano su un testo consentendo la modifica di concetti visivi non rappresentati da descrizioni scritte. Le tecniche di personalizzazione del modello basate sull’immagine sono complesse per la modifica delle immagini, anche se il team di ricerca può introdurre nuovi token per nuove nozioni basate sull’immagine. D’altra parte, gli Sliders di nozione consentono a un artista di specificare una nozione desiderata con poche foto accoppiate. Dopo di che, lo Slider di concetto generalizzerà il concetto visivo e lo applicherà ad altre immagini, anche a quelle in cui sarebbe impossibile articolare il cambiamento a parole. (vedi Figura 1) Ricerche precedenti hanno mostrato che altri modelli generativi di immagini, come i GAN, includono regioni latenti che offrono un controllo fortemente disentangled sulle uscite prodotte.

Figura 1 mostra come la tecnica trova le direzioni a basso grado nell’ambito dei parametri di diffusione per un controllo focalizzato delle idee con il minimo interferenza ad altre caratteristiche, dato un modesta collezione di prompt di testo o dati di immagini corrispondenti. Queste direzioni sono componibili per un controllo multi-attributo complicato e possono essere formate da coppie di nozioni testuali o visive opposte create dagli artisti. Trasferendo latenti disentangled di StyleGAN nei modelli di diffusione e riparando le mani distorte nelle uscite di Stable Diffusion, i ricercatori mostrano l’efficacia del loro approccio.

In particolare, è stato dimostrato che i neuroni dello spazio di stile di StyleGAN forniscono un controllo fine dei diversi caratteristiche significative delle immagini che sono difficili da esprimere verbalmente. Il team di ricerca mostra che è possibile sviluppare Sliders di concetto che trasferiscono direzioni latenti dallo spazio di stile di StyleGAN addestrato su foto di volti FFHQ nei modelli di diffusione, dimostrando ulteriormente il potenziale della loro tecnica. Interessante è che il loro approccio adatta con successo queste latenti per offrire un controllo di stile sottile sulla produzione di immagini varie, anche se essa proviene da un dataset di volti. Ciò dimostra come i modelli di diffusione possano esprimere le intricate nozioni visive nelle latenti GAN, anche quelle senza descrizioni scritte.

I ricercatori dimostrano che l’espressività di Concept Sliders è sufficiente per gestire due applicazioni utili: migliorare il realismo e correggere le deformità delle mani. Anche se i modelli generativi hanno compiuto grandi passi avanti nella produzione di sintesi di immagini realistiche, i modelli di diffusione più recenti, come Stable Diffusion XL, sono ancora inclini a produrre volti distorti, oggetti fluttuanti e prospettive distorte, oltre a mani distorte con dita extra o mancanti da un punto di vista anatomico. Il team di ricerca conferma attraverso uno studio utente percettivo che due Concept Sliders, uno per “mani fisse” e un altro per “immagine realistica”, producono un aumento statisticamente significativo del realismo percepito senza modificare la sostanza delle immagini.

I Concept Sliders possono essere assemblati e smontati. Il team di ricerca ha scoperto che è possibile creare più di 50 slider distinti senza compromettere la qualità del risultato. Questa adattabilità apre un nuovo mondo di controllo sottile delle immagini per gli artisti, consentendo loro di combinare molti Concept Sliders definiti testualmente, visivamente e tramite GAN. La loro tecnologia consente modifiche più complesse rispetto a quelle che il solo testo può offrire, superando i normali vincoli dei token di comando.