Posizionami al centro velocemente Subject-Diffusion è un modello di intelligenza artificiale che può realizzare la generazione di testo-immagine personalizzato a dominio aperto.

Sposta al centro rapidamente Subject-Diffusion, un modello di IA per la generazione personalizzata di testo-immagine a dominio aperto.

I modelli di testo-immagine sono stati il fulcro di ogni discussione sull’IA dell’ultimo anno. L’avanzamento nel campo è avvenuto piuttosto rapidamente e, di conseguenza, abbiamo modelli di testo-immagine impressionanti. L’IA generativa è entrata in una nuova fase.

I modelli di diffusione sono stati i principali contribuenti a questo sviluppo. Sono emersi come una potente classe di modelli generativi. Questi modelli sono progettati per generare immagini di alta qualità denoizzando lentamente l’input fino a ottenere un’immagine desiderata. I modelli di diffusione possono catturare pattern di dati nascosti e generare campioni diversi e realistici.

Il rapido sviluppo dei modelli generativi basati sulla diffusione ha rivoluzionato i metodi di generazione di testo-immagine. Puoi chiedere un’immagine, qualsiasi cosa tu possa immaginare, descriverla e i modelli possono generarla in modo piuttosto accurato. Man mano che progrediscono, diventa difficile capire quali immagini sono generate dall’IA.

Tuttavia, c’è un problema qui. Questi modelli si basano esclusivamente su descrizioni testuali per generare immagini. Puoi solo “descrivere” ciò che vuoi vedere. Inoltre, non sono facili da personalizzare poiché ciò richiederebbe un riaffinamento nella maggior parte dei casi.

Immagina di fare un progetto di interior design per la tua casa e lavorare con un architetto. L’architetto potrebbe offrirti solo progetti che ha fatto per clienti precedenti e, quando cerchi di personalizzare una parte del progetto, semplicemente lo ignora e ti offre uno stile già utilizzato. Non suona molto piacevole, vero? Questa potrebbe essere l’esperienza che avrai con i modelli di testo-immagine se cerchi la personalizzazione.

Fortunatamente, ci sono stati tentativi di superare queste limitazioni. I ricercatori hanno esplorato l’integrazione di descrizioni testuali con immagini di riferimento per ottenere una generazione di immagini più personalizzata. Mentre alcuni metodi richiedono un riaffinamento su immagini di riferimento specifiche, altri riformano i modelli di base su dataset personalizzati, con potenziali svantaggi in termini di fedeltà e generalizzazione. Inoltre, la maggior parte degli algoritmi esistenti si rivolge a domini specifici, lasciando lacune nella gestione della generazione di concetti multipli, nel riaffinamento al momento del test e nella capacità di zero-shot in un dominio aperto.

Quindi, oggi ci incontriamo con un nuovo approccio che ci avvicina alla personalizzazione di dominio aperto: è arrivato il momento di conoscere Subject-Diffusion.

SubjectDiffusion può generare immagini guidate da soggetti ad alta fedeltà. Fonte: https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion è una nuova innovativa framework di generazione di immagini personalizzate di dominio aperto. Utilizza solo un’immagine di riferimento e elimina la necessità di un riaffinamento al momento del test. Per costruire un dataset su larga scala per la generazione di immagini personalizzate, si basa su uno strumento automatico di etichettatura dei dati, ottenendo il Dataset Subject-Diffusion (SDD) con un impressionante numero di 76 milioni di immagini e 222 milioni di entità.

Subject-Diffusion ha tre componenti principali: controllo della posizione, controllo dell’immagine di riferimento a grana fine e controllo dell’attenzione. Il controllo della posizione prevede l’aggiunta di immagini maschera dei soggetti principali durante il processo di iniezione di rumore. Il controllo dell’immagine di riferimento a grana fine utilizza un modulo di informazioni combinato testo-immagine per migliorare l’integrazione di entrambe le granularità. Per consentire la generazione fluida di soggetti multipli, viene introdotto il controllo dell’attenzione durante l’addestramento.

Panoramica di SubjectDiffusion. Fonte: https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion raggiunge un’impresionante fedeltà e generalizzazione, in grado di generare immagini personalizzate di soggetti singoli, multipli e umani con modifiche a forma, posa, sfondo e stile basate su un’unica immagine di riferimento per soggetto. Il modello consente anche un’interpolazione fluida tra immagini personalizzate e descrizioni testuali attraverso un processo di denoising appositamente progettato. Confronti quantitativi mostrano che Subject-Diffusion supera o è all’altezza di altri metodi all’avanguardia, sia con che senza riaffinamento al momento del test, su vari dataset di benchmark.