Questa ricerca sull’IA propone Kosmos-G un modello di intelligenza artificiale che esegue una generazione di immagini zero-shot ad alta fedeltà a partire da un’input di visione-linguaggio generalizzato, sfruttando la proprietà dei Modelli Di Linguaggio

Kosmos-G un modello di intelligenza artificiale che genera immagini ad alta fedeltà zero-shot, basandosi su input di visione-linguaggio generalizzato - una ricerca innovativa sull'IA che sfrutta le potenzialità dei Modelli Di Linguaggio

Recentemente, ci sono stati progressi significativi nella creazione di immagini da descrizioni di testo e nella combinazione di testo e immagini per generare nuove immagini. Tuttavia, un’area inesplorata è la generazione di immagini da input visivo-linguistici generalizzati (ad esempio, la generazione di un’immagine da una descrizione di scenari che coinvolgono oggetti e persone multiple). Un team di ricercatori di Microsoft Research, New York University e University of Waterloo ha introdotto KOSMOS-G, un modello che utilizza Multimodal LLMs per affrontare questa sfida.

KOSMOS-G è in grado di creare immagini dettagliate a partire da combinazioni complesse di testo e immagini multiple, anche quando non ne ha mai viste di simili. È il primo modello in grado di generare immagini in situazioni in cui sono presenti vari oggetti o elementi in base alla descrizione. KOSMOS-G può essere utilizzato al posto di CLIP, aprendo nuove possibilità per l’utilizzo di altre tecniche come ControlNet e LoRA in diverse applicazioni.

KOSMOS-G utilizza un approccio intelligente per generare immagini da testo e immagini. Inizia addestrando un multimodal LLM (che è in grado di comprendere contemporaneamente testo e immagini), che viene poi allineato con l’encoder di testo CLIP (che è bravo a comprendere il testo).

Quando diamo a KOSMOS-G una didascalia con testo e immagini segmentate, viene addestrato per creare immagini che corrispondono alla descrizione e seguono le istruzioni. Lo fa utilizzando un decodificatore di immagini preaddestrato e sfruttando ciò che ha appreso dalle immagini per generare immagini accurate in diverse situazioni.

KOSMOS-G è in grado di generare immagini in base a istruzioni e dati di input. Ha tre fasi di addestramento. Nella prima fase, il modello viene preaddestrato su corpora multimodali. Nella seconda fase, viene addestrato un AlignerNet per allineare lo spazio di output di KOSMOS-G con lo spazio di input di U-Net tramite supervisione CLIP. Nella terza fase, KOSMOS-G viene affinato attraverso un compito di generazione composita su dati curati. Durante la fase 1, viene addestrato solo il MLLM. Nella fase 2, AlignerNet viene addestrato con MLLM congelato. Durante la fase 3, sia AlignerNet che MLLM vengono addestrati congiuntamente. Il decodificatore di immagini rimane congelato durante tutte le fasi.

KOSMOS-G è davvero bravo nella generazione di immagini senza l’uso di esempi specifici. Può creare immagini che hanno senso, sono belle e possono essere personalizzate in modi diversi. Può fare cose come cambiare il contesto, aggiungere uno stile particolare, apportare modifiche e aggiungere dettagli extra alle immagini. KOSMOS-G è il primo modello a raggiungere la generazione VL2I multi-entità in una modalità senza esempi specifici.

KOSMOS-G può facilmente sostituire CLIP nei sistemi di generazione di immagini. Ciò apre eccitanti nuove possibilità per applicazioni che in passato erano considerate impossibili. Basandosi sulla base di CLIP, si prevede che KOSMOS-G porterà ad una transizione dalla generazione di immagini basata sul testo alla generazione di immagini basata su una combinazione di testo e informazioni visive, creando opportunità per molte applicazioni innovative.

In sintesi, KOSMOS-G è un modello in grado di creare immagini dettagliate sia da testo che da immagini multiple. Utilizza una strategia unica chiamata “allineare prima di istruire” nel suo addestramento. KOSMOS-G è bravo nel creare immagini di oggetti singoli ed è il primo a farlo con oggetti multipli. Può anche sostituire CLIP e essere utilizzato con altre tecniche come ControlNet e LoRA per nuove applicazioni. In breve, KOSMOS-G è un primo passo verso la creazione di immagini come un linguaggio nella generazione di immagini.