Alibaba AI Research propone Composer un grande modello di diffusione controllabile (5 miliardi di parametri) addestrato su miliardi di coppie (testo, immagine).

'Alibaba AI Research proposes Composer, a large controllable dissemination model (5 billion parameters) trained on billions of pairs (text, image).

Oggi, i modelli generativi basati su testo sono in grado di creare una vasta gamma di immagini fotorealistiche. Molti sforzi recenti hanno ampliato i modelli di testo-immagine per compiere ulteriori personalizzazioni aggiungendo condizioni come mappe di segmentazione, grafi di scene, disegni, mappe di profondità e maschere di imbiancatura o raffinando i modelli preaddestrati su una piccola quantità di dati specifici del soggetto. Tuttavia, quando si tratta di applicare questi modelli per applicazioni del mondo reale, i designer hanno ancora bisogno di un maggiore controllo su di essi. Ad esempio, è tipico nei progetti di design del mondo reale che i modelli generativi abbiano bisogno di aiuto per produrre in modo affidabile immagini con simultanea richiesta di semantica, forma, stile e colore.

I ricercatori di Alibaba China presentano Composer. È un’ampia (5 miliardi di parametri) diffusione controllabile modello addestrato su miliardi di coppie (testo, immagine). Sostengono che la composizione – piuttosto che solo la condizionatura – sia il segreto per controllare la formazione dell’immagine. Quest’ultima introduce molte possibili combinazioni, che possono ingrandire notevolmente lo spazio di controllo. Idee simili sono indagate nelle discipline della comprensione del linguaggio e della scena. In questi campi, la composizione viene chiamata generalizzazione compositiva, la capacità di riconoscere o creare un numero finito di combinazioni uniche da un numero limitato di componenti disponibili. Sulla base del concetto precedentemente citato, forniscono a Composer in questo lavoro un’implementazione di modelli generativi compositivi. Si riferiscono a modelli generativi che possono riunire in modo uniforme elementi visivi per creare nuove immagini come modelli generativi compositivi. Utilizzano un modello di diffusione multi-condizionale con un’infrastruttura di rete neurale a U per implementare Composer. Ogni iterazione di addestramento di Composer ha due fasi: la fase di decomposizione, in cui vengono utilizzati algoritmi di visione artificiale o modelli preaddestrati per scomporre lotti di immagini in rappresentazioni individuali, e la fase di composizione, in cui Composer viene ottimizzato per ricostruire le immagini dai sottoinsiemi di rappresentazioni.

Figura 1: Idea di sintesi immagine compositiva, che prima scompone un’immagine in un certo numero di parti fondamentali prima di ricomporla con un alto grado di creatività e controllo. Per fare ciò, i componenti assumono una varietà di forme e agiscono come condizioni durante il processo di generazione, consentendo una vasta modifica durante la fase di inferenza. Visualizzabile al meglio ad alta risoluzione.

I Compositori possono decodificare immagini uniche da combinazioni inedite di rappresentazioni che possono provenire da fonti multiple e potrebbero essere incompatibili tra loro, pur essendo stati addestrati solo con uno scopo di ricostruzione. Composer è sorprendentemente efficace nonostante la sua semplicità concettuale e facilità d’uso, consentendo prestazioni incoraggianti sia su compiti di generazione e manipolazione di immagini convenzionali che su compiti di generazione di immagini multi-modalità condizionale, trasferimento di stile, trasferimento di posa, traduzione di immagini, prova virtuale, interpolazione e variazione di immagini da diverse direzioni, riconfigurazione di immagini mediante modifica di schizzi, traduzione dipendente dall’immagine e traduzione di immagini.

Inoltre, Composer può limitare la regione modificabile a un’area specificata dall’utente per tutte le operazioni sopra elencate, che è più flessibile rispetto all’operazione di imbiancatura convenzionale, evitando al contempo la modifica dei pixel al di fuori di questa regione mediante l’introduzione di una rappresentazione ortogonale della mascheratura. Nonostante l’addestramento multitask, Composer ottiene un FID di 9,2 nella sintesi testo-immagine sul dataset COCO utilizzando la didascalia come criterio, dimostrando la sua capacità di fornire risultati eccellenti. Il loro paradigma di decomposizione-composizione indica che lo spazio di controllo dei modelli generativi può essere notevolmente aumentato quando le condizioni sono componibili anziché impiegate individualmente. Di conseguenza, una vasta gamma di compiti generativi convenzionali può essere riformulata utilizzando l’architettura di Composer, e vengono rivelate capacità generative finora non riconosciute, ispirando ulteriori studi su varie tecniche di decomposizione che potrebbero raggiungere una maggiore controllabilità. Inoltre, sulla base di una guida bidirezionale e priva di classificatori, dimostrano molteplici approcci all’impiego di Composer per diverse produzioni e modifiche di immagini, fornendo utili riferimenti per studi successivi. Prima di rendere il lavoro disponibile al pubblico, intendono esaminare attentamente come Composer possa ridurre il pericolo di abuso e forse fornire una versione filtrata.