Concept Sliders Controllo preciso nei modelli di diffusione con adattatori LoRA

Controllo preciso dei modelli di diffusione con adattatori LoRA l'innovazione dei Concept Sliders

Grazie alle loro capacità, i modelli di diffusione di testo-immagine si sono affermati immensamente nella comunità artistica. Tuttavia, i modelli attuali, compresi quelli all’avanguardia, faticano spesso a mantenere il controllo dei concetti visivi e degli attributi nelle immagini generate, con risultati insoddisfacenti. La maggior parte dei modelli si basa esclusivamente su prompt testuali, il che comporta sfide nella modulazione di attributi continui come l’intensità del tempo, la nitidezza delle ombre, le espressioni facciali o l’età di una persona in modo preciso. Ciò rende difficile per gli utenti finali regolare le immagini per soddisfare le proprie esigenze specifiche. Inoltre, sebbene questi framework generativi producano immagini di alta qualità e realistiche, sono soggetti a distorsioni come volti deformi o dita mancanti.

Per superare queste limitazioni, gli sviluppatori hanno proposto l’uso di Concept Sliders interpretabili. Questi slider promettono un maggiore controllo per gli utenti finali sugli attributi visivi, migliorando la generazione e l’editing delle immagini all’interno dei modelli di diffusione. I Concept Sliders nei modelli di diffusione funzionano identificando una direzione di parametro corrispondente a un singolo concetto mentre minimizzano l’interferenza con altri attributi. Il framework crea questi sliders utilizzando immagini campione o un set di prompt, stabilendo così direzioni per concetti sia testuali che visivi.

In definitiva, l’uso dei Concept Sliders nei modelli di diffusione di testo-immagine può portare alla generazione di immagini con un grado minimo di interferenza e un controllo migliorato sul risultato finale, aumentando anche il realismo percepito senza alterare il contenuto delle immagini e generando quindi immagini realistiche. In questo articolo, discuteremo in modo approfondito il concetto di utilizzo dei Concept Sliders nei framework di testo-immagine e analizzeremo come il loro utilizzo possa portare a immagini generate dall’IA di qualità superiore.

Un’introduzione ai Concept Sliders

Come già accennato, i framework di diffusione di testo-immagine attuali faticano spesso a controllare i concetti visivi e gli attributi nelle immagini generate, con risultati insoddisfacenti. Inoltre, molti di questi modelli trovano difficile modulare attributi continui, contribuendo ulteriormente a risultati insoddisfacenti. I Concept Sliders possono contribuire a mitigare questi problemi, fornendo a creatori di contenuti e utenti finali un controllo migliorato sul processo di generazione dell’immagine e affrontando le sfide affrontate dai framework attuali.

La maggior parte dei modelli di diffusione di testo-immagine attuali si basa sulla modifica diretta dei prompt testuali per controllare gli attributi dell’immagine. Sebbene questo approccio consenta la generazione di immagini, non è ottimale in quanto la modifica del prompt può alterare drasticamente la struttura dell’immagine. Un altro approccio utilizzato da questi framework coinvolge tecniche post hoc, che invertano il processo di diffusione e modifichino le attenzioni incrociate per modificare i concetti visivi. Tuttavia, le tecniche post hoc hanno limitazioni, supportando solo un numero limitato di modifiche simultanee e richiedendo passaggi di interferenza individuali per ogni nuovo concetto. Inoltre, possono introdurre intrecci concettuali se non ingegnerizzati attentamente.

Al contrario, i Concept Sliders offrono una soluzione più efficiente per la generazione di immagini. Questi adattatori leggeri e facili da usare possono essere applicati a modelli pre-addestrati, migliorando il controllo e la precisione sui concetti desiderati in un singolo passaggio di interferenza con un minimo di intrecci. I Concept Sliders consentono anche la modifica di concetti visivi non coperti da descrizioni testuali, una caratteristica che li distingue dai metodi di modifica basati su prompt testuali. Sebbene i metodi di personalizzazione basati sull’immagine possano aggiungere efficacemente token per concetti basati sull’immagine, sono difficili da implementare per la modifica delle immagini. I Concept Sliders, d’altra parte, consentono agli utenti finali di fornire un numero limitato di immagini accoppiate che definiscono un concetto desiderato. Gli slider generalizzano quindi questo concetto e lo applicano automaticamente ad altre immagini, mirando a migliorare il realismo e correggere distorsioni come quelle nelle mani.

I Concept Sliders cercano di imparare dagli ed affrontare le problematiche comuni a quattro concetti di intelligenza artificiale generativa e di framework di diffusione: Modifica delle Immagini, Metodi Basati su Guida, Modifica dei Modelli e Direzioni Semantiche.

Modifica delle Immagini

I framework AI attuali si concentrano sull’utilizzo di un input condizionale per guidare la struttura dell’immagine o sulla manipolazione delle attenzioni incrociate dell’immagine di origine con il suo prompt di destinazione per consentire la modifica di un’immagine singola nei framework di diffusione di testo-immagine. Di conseguenza, questi approcci possono essere implementati solo su immagini singole e richiedono anche un’ottimizzazione delle basi latenti per ogni immagine a causa dell’evoluzione della struttura geometrica nel corso del tempo attraverso i prompt.

Metodi Basati su Guida

L’uso di metodi basati sulla guida senza classificatori ha indicato la loro capacità di migliorare la qualità delle immagini generate ed aumentare l’allineamento testo-immagine. Incorporando termini guida durante l’interferenza, il metodo migliora la composizionalità limitata ereditata dai framework di diffusione e può essere utilizzato per guidare attraverso concetti non sicuri nei framework di diffusione.

Modifica del modello

L’uso degli slider concettuali può anche essere considerato come una tecnica di modifica del modello che impiega un adattatore di basso rango per produrre un singolo attributo semantico che permette un controllo continuo allineato con l’attributo stesso. Successivamente, vengono utilizzati metodi di personalizzazione basati sul finetuning per personalizzare il framework e aggiungere nuovi concetti. Inoltre, la tecnica di diffusione personalizzata propone un modo per ottimizzare i layer di cross-attention per incorporare nuovi concetti visivi nei modelli di diffusione pre-addestrati. Al contrario, la tecnica di diffusione testuale propone di ottimizzare un vettore di embedding per attivare le capacità del modello e introdurre concetti testuali nel framework.

Direzione semantica nei GANs

La manipolazione degli attributi semantici è una delle principali caratteristiche dei Generative Adversarial Networks, in cui si è scoperto che le traiettorie dello spazio latente sono allineate in modo auto-supervisionato. Nei framework di diffusione, queste traiettorie dello spazio latente esistono nei livelli intermedi dell’architettura U-Net, e la direzione principale degli spazi latenti nei framework di diffusione cattura la semantica globale. Gli slider concettuali allenano i sottospazi di basso rango corrispondenti agli attributi speciali direttamente e ottengono direzioni di modifica precise e localizzate utilizzando coppie di testo o immagini per ottimizzare le direzioni globali.

Slider concettuali: architettura e funzionamento

Modelli di diffusione e LoRA o adattatori di basso rango

I modelli di diffusione sono essenzialmente una sottoclasse di framework di IA generativa che operano seguendo il principio di sintetizzare dati invertendo un processo di diffusione. Il processo di diffusione in avanti aggiunge inizialmente rumore ai dati, trasformandoli da uno stato organizzato a uno stato di rumore gaussiano completo. L’obiettivo principale dei modelli di diffusione è invertire gradualmente il processo di diffusione denoisando l’immagine e campionando un rumore gaussiano casuale per generare un’immagine. Nelle applicazioni del mondo reale, l’obiettivo principale dei framework di diffusione è predire il vero rumore quando il rumore gaussiano completo viene fornito in input insieme ad input aggiuntivi come la condizionatura e il timestep.

La tecnica LoRA o adattatori di basso rango scompone gli aggiornamenti dei pesi durante il fine-tuning per consentire un’adattamento efficiente dei framework pre-addestrati su compiti successivi. La tecnica LoRA scompone gli aggiornamenti dei pesi per uno strato di modello pre-addestrato rispetto alle dimensioni di input e di output, vincola l’aggiornamento a un sottospazio a bassa dimensionalità.

Slider concettuali

Lo scopo principale degli slider concettuali è fungere da approccio per il finetuning degli adattatori LoRA su un framework di diffusione al fine di facilitare un maggiore controllo sulle immagini focalizzate su concetti specifici, come mostrato nell’immagine seguente.

Quando condizionati dai concetti target, gli slider concettuali apprendono le direzioni dei parametri di basso rango per aumentare o diminuire l’espressione di attributi specifici. Per un modello e il suo concetto target, l’obiettivo principale degli slider concettuali è ottenere un modello potenziato che modifica la probabilità di migliorare e sopprimere attributi per un’immagine quando condizionata al concetto target per aumentare la probabilità di migliorare gli attributi e diminuire la probabilità di sopprimere gli attributi. Utilizzando la riparametrizzazione e la formula di Tweedie, il framework introduce un processo di rumore variabile nel tempo ed esprime ogni punteggio come una previsione di denoising. Inoltre, l’obiettivo di distanziazione mette a punto i moduli negli slider concettuali mantenendo costanti i pesi pre-addestrati, e il fattore di scala introdotto durante la formulazione LoRA viene modificato durante l’interferenza. Il fattore di scala facilita anche l’aggiustamento dell’intensità della modifica, rendendo le modifiche più forti senza dover ritraining del framework, come mostrato nell’immagine seguente.

I metodi di modifica utilizzati in precedenza dai framework consentivano modifiche più forti attraverso il ritraining del framework con una guida aumentata. Tuttavia, modificare il fattore di scala durante l’interferenza produce gli stessi risultati di modifica senza aumentare il costo e il tempo di ritraining.

Apprendimento di concetti visivi

Gli slider concettuali sono progettati in modo da controllare concetti visivi che non possono essere definiti bene tramite prompt di testo, e questi slider sfruttano piccoli set di dati che vengono accoppiati prima o dopo per allenarsi su questi concetti. Il contrasto tra le coppie di immagini consente agli slider di apprendere i concetti visivi. Inoltre, il processo di allenamento degli slider concettuali ottimizza il componente LoRA implementato sia nelle direzioni in avanti che inverse. Di conseguenza, il componente LoRA si allinea con la direzione che causa gli effetti visivi in entrambe le direzioni.

Concept Sliders : Risultati dell’implementazione

Per analizzare il guadagno in termini di prestazioni, gli sviluppatori hanno valutato l’uso di Concept Sliders principalmente su Stable Diffusion XL, un framework ad alta risoluzione da 1024 pixel, con ulteriori esperimenti condotti sul framework Stable Diffusion v1.4 in cui i modelli sono stati allenati per 500 epoche ciascuno.

Concept Sliders Testuali

Per valutare le prestazioni dei Concept Sliders testuali, essi sono stati validati su un set di 30 concetti basati su testo e il metodo è stato confrontato con due baselines che utilizzano un prompt di testo standard per un numero fisso di timestep, per poi iniziare la composizione aggiungendo prompt per guidare l’immagine. Come si può vedere dalla figura seguente, l’uso di Concept Sliders porta a un punteggio CLIP costantemente più alto e una riduzione costante del punteggio LPIPS rispetto al framework originale senza Concept Sliders.

Come si può vedere dall’immagine sopra, l’uso di Concept Sliders facilita la modifica precisa degli attributi desiderati durante il processo di generazione dell’immagine mantenendo la struttura complessiva dell’immagine.

Concept Sliders Visivi

I modelli di diffusione di testo in immagine che utilizzano solo prompt di testo spesso trovano difficile mantenere un alto grado di controllo sugli attributi visivi come la barba o la forma degli occhi. Per garantire un migliore controllo sugli attributi granulari, i Concept Sliders sfruttano la guida testuale opzionale associata a set di dati di immagini. Come si può vedere dalla figura seguente, i Concept Sliders creano slider individuali per “dimensione degli occhi” e “forma delle sopracciglia” che catturano le trasformazioni desiderate utilizzando le coppie di immagini.

I risultati possono essere ulteriormente perfezionati fornendo testi specifici in modo che la direzione si focalizzi su quella regione del viso, e creando slider con controllo graduale sull’attributo mirato.

Composizione degli Slider

Uno dei principali vantaggi dell’uso dei Concept Sliders è la loro componibilità, che consente agli utenti di combinare più slider per ottenere un maggiore controllo anziché concentrarsi su un singolo concetto alla volta, il che può essere attribuito alle direzioni degli slider a basso rango utilizzate nei Concept Sliders. Inoltre, poiché i Concept Sliders sono adattatori LoRA leggeri, sono facili da condividere e possono anche essere sovrapposti facilmente sui modelli di diffusione. Gli utenti possono anche regolare contemporaneamente più manopole per guidare generazioni complesse scaricando set di slider interessanti.

La seguente immagine mostra le capacità di composizione degli slider concettuali, e più slider vengono composti progressivamente in ogni riga da sinistra a destra, consentendo così la traversa degli spazi concettuali ad alta dimensione con un grado avanzato di controllo sui concetti.

Miglioramento della qualità dell’immagine

Anche se i framework di diffusione di testo in immagine all’avanguardia e i modelli generativi su larga scala come il modello Stable Diffusion XL sono in grado di generare immagini realistiche e di alta qualità, spesso presentano distorsioni come oggetti sfocati o avvolti, anche se i parametri di questi framework all’avanguardia sono dotati della capacità latente di generare output di alta qualità con meno generazioni. L’uso di Concept Sliders può portare alla generazione di immagini con meno distorsioni sbloccando le vere capacità di questi modelli identificando le direzioni dei parametri a basso rango.

Risolvere i problemi delle mani

Generare immagini con mani dal look realistico è sempre stato un ostacolo per i framework di diffusione, e l’uso dei Concept Sliders ha il controllo diretto sulla tendenza a distorcere le mani. L’immagine seguente mostra l’effetto dell’uso dei Concept Sliders “fix hands” che permette al framework di generare immagini con mani dal look più realistico.

Sliders di riparazione

L’uso dei Concept Sliders non solo permette di generare mani dal look più realistico, ma hanno anche mostrato il loro potenziale nel migliorare il realismo complessivo delle immagini generate dal framework. I Concept Sliders identificano anche una singola direzione dei parametri di basso rango che permette lo spostamento delle immagini da problemi comuni di distorsione, e i risultati sono mostrati nell’immagine seguente.

Pensieri finali

In questo articolo, abbiamo parlato dei Concept Sliders, un nuovo paradigma semplice ma scalabile che permette un controllo interpretabile sull’output generato nei modelli di diffusione. L’uso dei Concept Sliders mira a risolvere i problemi affrontati dai attuali framework di diffusione di testo in immagine che trovano difficile mantenere il controllo richiesto sui concetti visivi e attributi inclusi nell’immagine generata, il che spesso porta a un output insoddisfacente. Inoltre, la maggior parte dei modelli di diffusione di testo in immagine hanno difficoltà a modulare attributi continui in un’immagine che spesso porta a output insoddisfacenti. L’uso dei Concept Sliders potrebbe permettere ai framework di diffusione di testo in immagine di mitigare questi problemi e fornire ai creatori di contenuti e agli utenti finali un grado maggiore di controllo sul processo di generazione delle immagini e risolvere i problemi affrontati dai framework attuali.