L’amicizia con la singola modalità è finita – ora la multi-modalità è la mia migliore amica CoDi è un modello di intelligenza artificiale che può raggiungere la generazione any-to-any tramite la diffusione componibile.

My friendship with the single modality is over - now multi-modality is my best friend. CoDi is an AI model that can achieve any-to-any generation through compositional diffusion.

L’Intelligenza Artificiale Generativa è un termine che sentiamo quasi tutti i giorni ora. Non ricordo nemmeno quanti articoli ho letto e riassunto qui su questo argomento. Sono impressionanti, ciò che fanno sembra irreale e magico e possono essere utilizzati in molte applicazioni. Possiamo generare immagini, video, audio e altro ancora usando solo prompt di testo.

I significativi progressi compiuti nei modelli di Intelligenza Artificiale Generativa negli ultimi anni hanno reso possibili casi d’uso che erano considerati impossibili non molto tempo fa. Tutto è cominciato con i modelli di testo-immagine, e una volta che è stato visto che producono risultati incredibilmente belli, la domanda di modelli di IA capaci di gestire molteplici modalità è aumentata.

Recentemente, c’è una crescente domanda di modelli che possano prendere qualsiasi combinazione di input (ad esempio, testo + audio) e generare varie combinazioni di output di modalità (ad esempio, video + audio). Sono stati proposti diversi modelli per affrontare questa sfida, ma questi modelli hanno limitazioni per quanto riguarda le applicazioni del mondo reale che coinvolgono molteplici modalità che coesistono e interagiscono.

Pur essendo possibile concatenare modelli generativi specifici per una modalità in un processo a più fasi, la potenza generativa di ogni passaggio rimane intrinsecamente limitata, il che comporta un approccio scomodo e lento. Inoltre, i flussi unimodali generati indipendentemente possono mancare di coerenza e allineamento quando combinati, rendendo difficile la sincronizzazione post-elaborazione.

Addestrare un modello per gestire qualsiasi miscela di modalità di input e generare in modo flessibile qualsiasi combinazione di output presenta notevoli requisiti computazionali e di dati. Il numero di possibili combinazioni input-output scala in modo esponenziale, mentre i dati di addestramento allineati per molte gruppi di modalità sono scarsi o non esistenti.

Incontriamo CoDi, che è stato proposto per affrontare questa sfida. CoDi è una nuova architettura neurale che consente l’elaborazione e la generazione simultanee di combinazioni arbitrarie di modalità.

Panoramica di CoDi. Fonte: https://arxiv.org/pdf/2305.11846.pdf

CoDi propone di allineare più modalità sia nei passaggi di condizionamento in input che nella diffusione della generazione. Inoltre, introduce una strategia di “Allineamento di Ponte” per l’apprendimento contrastivo, che gli consente di modellare efficientemente il numero esponenziale di combinazioni input-output con un numero lineare di obiettivi di addestramento.

L’innovazione chiave di CoDi risiede nella sua capacità di gestire qualsiasi generazione da qualsiasi fonte sfruttando una combinazione di modelli di diffusione latente (LDM), meccanismi di condizionamento multimodali e moduli di cross-attenzione. Addestrando LDM separati per ogni modalità e proiettando le modalità di input in uno spazio di funzioni condiviso, CoDi può generare qualsiasi modalità o combinazione di modalità senza addestramento diretto per tali impostazioni.

Lo sviluppo di CoDi richiede una progettazione del modello completa e un addestramento su risorse dati diverse. In primo luogo, l’addestramento inizia con un modello di diffusione latente (LDM) per ogni modalità, come il testo, l’immagine, il video e l’audio. Questi modelli possono essere addestrati indipendentemente in parallelo, garantendo una qualità di generazione a singola modalità eccezionale utilizzando dati di addestramento specifici della modalità. Per la generazione condizionale cross-modalità, in cui le immagini vengono generate utilizzando prompt audio+lingua, le modalità di input vengono proiettate in uno spazio di funzioni condiviso e l’LDM di output si concentra sulla combinazione di funzioni di input. Questo meccanismo di condizionamento multimodale prepara il modello di diffusione per gestire qualsiasi modalità o combinazione di modalità senza addestramento diretto per tali impostazioni.

Panoramica del modello CoDi. Fonte: https://arxiv.org/pdf/2305.11846.pdf

Nella seconda fase di addestramento, CoDi gestisce strategie di generazione many-to-many che coinvolgono la generazione simultanea di combinazioni arbitrarie di modalità di output. Ciò è ottenuto aggiungendo un modulo di cross-attenzione ad ogni diffusore e un codificatore di ambiente per proiettare la variabile latente di diverse LDM in uno spazio latente condiviso. Questa capacità di generazione senza soluzione di continuità consente a CoDi di generare qualsiasi gruppo di modalità senza addestrarsi su tutte le possibili combinazioni di generazione, riducendo il numero di obiettivi di addestramento da esponenziale a lineare.