Incontra DreamBooth Una tecnica di intelligenza artificiale per la generazione di immagini basata su testo guidato dal soggetto

DreamBooth una tecnica di intelligenza artificiale per generare immagini basate su testo

Immagina il tuo amico quadrupede che gioca all’aperto o la tua auto esposta in un’esclusiva sala esposizione. Creare questi scenari immaginari è particolarmente sfidante, poiché richiede di combinare istanze di soggetti particolari (come oggetti o animali) all’interno di contesti freschi.

I modelli di generazione di immagini basati su testo su larga scala sviluppati di recente hanno dimostrato notevoli capacità nella generazione di immagini di alta qualità e diverse basate su descrizioni in linguaggio naturale. Uno dei principali vantaggi di tali modelli risiede nella loro capacità di sfruttare una solida comprensione semantica acquisita da una vasta collezione di coppie immagine-didascalia. Questo presupposto semantico consente al modello di associare parole come “cane” a varie rappresentazioni di cani, tenendo conto di diverse pose e variazioni contestuali all’interno di un’immagine. Sebbene questi modelli eccellano nella sintesi, non possono replicare fedelmente l’aspetto dei soggetti da un dato set di riferimento o generare nuove interpretazioni di quei soggetti in contesti diversi. Questa limitazione deriva dall’espressività limitata del loro dominio di output. Di conseguenza, anche descrizioni testuali dettagliate di un oggetto possono risultare in istanze con aspetti distinti, il che è una brutta notizia se stavi cercando qualcosa del genere.

La buona notizia è che di recente è stata introdotta una nuova approccio di intelligenza artificiale per consentire la “personalizzazione” dei modelli di diffusione testo-immagine. Ciò consente un nuovo modo di adattare i modelli generativi alle esigenze individuali degli utenti in termini di generazione di immagini uniche. L’obiettivo è ampliare il dizionario linguaggio-visione del modello per stabilire associazioni tra nuove parole e soggetti specifici che gli utenti intendono generare.

Una volta che il dizionario espanso viene integrato nel modello, acquisisce la capacità di sintetizzare nuove immagini fotorealistiche dell’insieme di soggetti in diverse scene, preservando le loro caratteristiche distintive di identificazione. Questo processo può essere inteso come un “cabina fotografica magica” in cui vengono catturate alcune immagini di soggetti e, successivamente, la cabina genera foto del soggetto in condizioni e scene diverse, guidata da prompt di testo semplici e intuitivi. L’architettura di DreamBooth è presentata nella figura seguente.

https://arxiv.org/abs/2208.12242

Formalmente, l’obiettivo è incorporare il soggetto nel dominio di output del modello in modo da consentirne la sintesi insieme a un identificatore univoco, dato un piccolo insieme di immagini di soggetti (circa 3-5). Per raggiungere questo obiettivo, DreamBooth rappresenta il soggetto utilizzando identificatori di token rari e esegue il fine-tuning di un framework di generazione di immagini basato su testo pre-allenato e basato sulla diffusione.

Il modello di generazione di testo-immagine viene sottoposto a fine-tuning utilizzando immagini di input e prompt di testo che consistono in un identificatore univoco seguito dal nome della classe del soggetto (ad esempio, “Un cane [V]”). Questo approccio consente al modello di utilizzare le conoscenze precedenti sulla classe del soggetto mentre associa l’istanza specifica della classe all’identificatore univoco. Viene proposta una perdita di preservazione specifica della classe per prevenire la deriva del linguaggio, che potrebbe portare il modello ad associare in modo errato il nome della classe (ad esempio, “cane”) a un’istanza specifica. Questa perdita sfrutta il presupposto semantico incorporato sulla classe all’interno del modello, incoraggiando la generazione di diverse istanze della stessa classe del soggetto.

L’approccio proposto viene applicato a vari compiti di generazione di immagini basati su testo, tra cui ricontestualizzazione dei soggetti, modifica delle proprietà, rappresentazioni artistiche originali e altro ancora. Queste applicazioni aprono nuove possibilità per compiti precedentemente complessi.

Sono presentati di seguito alcuni esempi di output per il compito di ricontestualizzazione, insieme al prompt di testo fornito per ottenerlo.

https://arxiv.org/abs/2208.12242

Questo è stato il riassunto di DreamBooth, una nuova tecnica di intelligenza artificiale per la generazione di immagini a partire da testo basato su soggetto. Se sei interessato e vuoi saperne di più su questo lavoro, puoi trovare ulteriori informazioni cliccando sui link di seguito.