Incontra P+ uno spazio di embedding ricco per l’inversione testuale estesa nella generazione di testo-immagine
P+ è uno spazio di embedding ricco per l'inversione testuale estesa nella generazione di testo-immagine
La sintesi testo-immagine si riferisce al processo di generazione di immagini realistiche a partire da descrizioni testuali. Questa tecnologia è un ramo dei modelli generativi nel campo dell’intelligenza artificiale (AI) ed ha attirato sempre più attenzione negli ultimi anni.
La generazione di testo-immagine mira a consentire alle reti neurali di interpretare e tradurre il linguaggio umano in rappresentazioni visive, consentendo una vasta gamma di combinazioni di sintesi. Inoltre, a meno che non venga insegnato diversamente, la rete generativa produce diverse immagini diverse per la stessa descrizione testuale. Ciò può essere estremamente utile per raccogliere nuove idee o rappresentare l’immagine esatta che abbiamo in mente ma non riusciamo a trovare su Internet.
Questa tecnologia ha potenziali applicazioni in vari settori, come la realtà virtuale e aumentata, il marketing digitale e l’intrattenimento.
- Fable Studio rilascia SHOW-1 una piattaforma di intelligenza artificiale in grado di scrivere, produrre, dirigere, animare e persino dare voce a interi nuovi episodi di programmi televisivi.
- Mossa successiva di Apple sviluppare ‘Apple GPT’ e strumenti AI generativi all’avanguardia per sfidare OpenAI
- 10 Termini di Machine Learning più Comuni Spiegati in un Linguaggio Semplice e Quotidiano
Tra le reti generative di testo-immagine più adottate, troviamo i modelli di diffusione.
I modelli di diffusione di testo-immagine generano immagini raffinando iterativamente una distribuzione di rumore condizionata all’input testuale. Codificano la descrizione testuale fornita in un vettore latente, che influisce sulla distribuzione del rumore, e raffinano iterativamente la distribuzione del rumore utilizzando un processo di diffusione. Questo processo produce immagini ad alta risoluzione e diverse che corrispondono al testo di input, ottenute attraverso un’architettura U-net che cattura e incorpora le caratteristiche visive del testo di input.
Lo spazio di condizionamento in questi modelli è definito come lo spazio P, definito dallo spazio di incorporamento dei token del modello di linguaggio. Fondamentalmente, P rappresenta lo spazio di condizionamento testuale, in cui un’istanza di input “p” appartenente a P (che è passata attraverso un codificatore di testo) viene iniettata in tutti gli strati di attenzione di una U-net durante la sintesi.
Di seguito viene presentata una panoramica del meccanismo di condizionamento del testo di un modello di diffusione del rumore.

Attraverso questo processo, poiché solo un’istanza, “p”, viene alimentata all’architettura U-net, il disentanglement ottenuto e il controllo sul testo codificato sono limitati.
Per questo motivo, gli autori introducono uno spazio di condizionamento del testo chiamato P+.
Questo spazio è composto da condizioni testuali multiple, ognuna delle quali viene iniettata in uno strato diverso della U-net. In questo modo, P+ può garantire una maggiore espressività e disentanglement, fornendo un miglior controllo dell’immagine sintetizzata. Come descritto dagli autori, i diversi strati della U-net hanno diversi gradi di controllo sugli attributi dell’immagine sintetizzata. In particolare, gli strati grossolani influenzano principalmente la struttura dell’immagine, mentre gli strati fini influenzano principalmente il suo aspetto.
Dopo aver presentato lo spazio P+, gli autori introducono un processo correlato chiamato “Extended Textual Inversion” (XTI). Si tratta di una versione rivisitata della classica “Textual Inversion” (TI), un processo in cui il modello impara a rappresentare un concetto specifico descritto in alcune immagini di input come un token dedicato. In XTI, l’obiettivo è invertire le immagini di input in un insieme di incorporamenti di token, uno per ogni strato, ovvero l’inversione in P+.
Per chiarire la differenza tra i due, immaginate di fornire l’immagine di un “lucertola verde” in input a una U-net a due strati. L’obiettivo per TI è ottenere “lucertola verde” in output, mentre XTI richiede due diverse istanze in output, che in questo caso sarebbero “verde” e “lucertola”.
Gli autori dimostrano nel loro lavoro che il processo di inversione esteso in P+ è non solo più espressivo e preciso rispetto a TI, ma anche più veloce.
Inoltre, aumentando il disentanglement su P+ è possibile mescolare attraverso la generazione di testo-immagine, come il mixing di stili di oggetti.
Di seguito viene riportato un esempio del lavoro menzionato.

Questo è stato il riassunto di P+, uno spazio di condizionamento testuale ricco per l’inversione testuale estesa.