Ricercatori di Microsoft presentano InstructDiffusion un framework AI unificante e generico per allineare compiti di visione artificiale con istruzioni umane

Microsoft researchers present InstructDiffusion, a unified and generic AI framework for aligning computer vision tasks with human instructions.

In un passo rivoluzionario verso modelli di visione adattabili e generalisti, ricercatori di Microsoft Research Asia hanno presentato InstructDiffusion. Questo innovativo framework rivoluziona il panorama della visione artificiale fornendo un’interfaccia unificata per una moltitudine di compiti di visione. L’articolo “InstructDiffusion: A Generalist Modeling Interface for Vision Tasks” introduce un modello in grado di gestire senza soluzione di continuità diverse applicazioni di visione contemporaneamente.

Al cuore di InstructDiffusion si trova un approccio innovativo: formulare i compiti di visione come processi di manipolazione dell’immagine intuitivi per gli esseri umani. A differenza dei metodi convenzionali che si basano su spazi di output predefiniti, come categorie o coordinate, InstructDiffusion opera in uno spazio flessibile di pixel, avvicinandosi di più alla percezione umana.

Il modello è progettato per modificare le immagini di input in base alle istruzioni testuali fornite dall’utente. Ad esempio, una direttiva come “cerchia l’occhio destro dell’uomo in rosso” consente al modello di svolgere compiti come la rilevazione dei punti chiave. Allo stesso tempo, istruzioni come “applica una maschera blu al cane più a destra” servono a scopi di segmentazione.

Alla base di questo framework si trovano i modelli probabilistici di diffusione del rumore (DDPM), che generano output di pixel. I dati di addestramento comprendono triplette, ognuna composta da un’istruzione, un’immagine di origine e un’immagine di output di destinazione. Il modello è pronto per affrontare tre tipi principali di output: immagini RGB, maschere binarie e punti chiave. Questo copre una vasta gamma di compiti di visione, tra cui segmentazione, rilevazione dei punti chiave, modifica e miglioramento delle immagini.

Rilevazione dei punti chiave

a) Crea un cerchio giallo intorno all’occhio destro della balena. (b) Segna il logo dell’automobile con un cerchio blu.

Segmentazione

a) Segna di blu i pixel del gatto nello specchio e lascia inalterati gli altri. (b) Dipingi di blu i pixel dell’ombra e mantieni l’aspetto attuale degli altri pixel.

Modifica delle immagini

Risultati delle immagini generati dal modello

Compiti a basso livello

InstructDiffusion è applicabile anche a compiti di visione a basso livello, come la deblurring dell’immagine, la riduzione del rumore e la rimozione del watermark.

Gli esperimenti dimostrano la maestria di InstructDiffusion, superando modelli specializzati in compiti individuali. Tuttavia, la vera meraviglia risiede nella sua capacità di generalizzazione. Esibisce la caratteristica distintiva spesso associata all’Intelligenza Artificiale Generale (AGI), adattandosi abilmente a compiti non incontrati durante l’addestramento. Questo segna un passo significativo verso un framework unificato e flessibile per la visione artificiale, pronto ad avanzare in tutto il campo.

Una rivelazione chiave è stata che addestrare contemporaneamente il modello su compiti diversi ha notevolmente amplificato la sua capacità di generalizzare a scenari nuovi. InstructDiffusion ha dimostrato una notevole competenza sui dataset umani e animali di HumanArt e AP-10K per la rilevazione dei punti chiave nonostante diverse distribuzioni dei dati rispetto ai dati di addestramento.

Il team di ricerca ha sottolineato l’importanza critica di istruzioni estremamente dettagliate nel migliorare le capacità di generalizzazione del modello. Semplici nomi di compiti come “segmentazione semantica” si sono rivelati insufficienti, producendo prestazioni inferiori, in particolare su tipi di dati nuovi. Ciò sottolinea la capacità di InstructDiffusion di comprendere i significati e le intenzioni specifiche dietro le istruzioni dettagliate anziché basarsi sulla memorizzazione.

Attraverso l’accento posto sulla comprensione anziché sulla memorizzazione, InstructDiffusion apprende concetti visivi robusti e significati semantici. Questa distinzione è fondamentale per comprendere le sue notevoli capacità di generalizzazione. Ad esempio, un’istruzione come “cerchia l’orecchio sinistro del gatto in rosso” consente al modello di distinguere elementi specifici, come “gatto”, “orecchio sinistro” e “cerchio rosso”, mostrando la sua comprensione dettagliata.

Questo sviluppo rivoluzionario fa avanzare i modelli di visione artificiale verso la capacità di diventare generalisti versatili, riflettendo la percezione umana. L’interfaccia di InstructDiffusion introduce flessibilità e interattività assenti nella maggior parte dei sistemi di visione attuali, colmando il divario tra comprensione umana e comprensione automatica nella visione artificiale. Le implicazioni di questa ricerca sono profonde, poiché apre la strada allo sviluppo di agenti di visione multiuso capaci, dimostrando il potenziale di spingere l’intelligenza visiva generale verso nuove vette.