Sistema di visione artificiale unisce riconoscimento e generazione di immagini.

The artificial vision system combines image recognition and generation.

MAGE unisce i due compiti chiave della generazione e del riconoscimento delle immagini, di solito addestrati separatamente, in un singolo sistema.

A unified vision system known as Msked Generative Encoder (MAGE), developed by researchers at MIT and Google, could be useful for many things, like finding and classifying objects in an image, learning from just a few examples, generating images with specific conditions such as text or class, editing existing images, and more.

I computer possiedono due capacità straordinarie in relazione alle immagini: possono identificarle e generarle nuovamente. Storicamente, queste funzioni sono rimaste separate, simili agli atti disparati di uno chef bravo a creare piatti (generazione) e di un intenditore bravo a gustarli (riconoscimento).

Tuttavia, non si può fare a meno di chiedersi: cosa sarebbe necessario per orchestrare un’armoniosa unione tra queste due capacità distintive? Sia lo chef che l’intenditore condividono una comprensione comune del gusto del cibo. Allo stesso modo, un sistema di visione unificato richiede una profonda comprensione del mondo visivo.

Ora, i ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT hanno addestrato un sistema per inferire le parti mancanti di un’immagine, un compito che richiede una comprensione approfondita del contenuto dell’immagine. Riempendo con successo i vuoti, il sistema, noto come Masked Generative Encoder (MAGE), raggiunge due obiettivi contemporaneamente: identificare accuratamente le immagini e crearne di nuove che assomigliano in modo sorprendente alla realtà.

Questo sistema a doppia funzione consente molteplici applicazioni potenziali, come l’identificazione e la classificazione degli oggetti all’interno delle immagini, l’apprendimento rapido da esempi minimi, la creazione di immagini in determinate condizioni come testo o classe e il miglioramento delle immagini esistenti.

A differenza di altre tecniche, MAGE non lavora con pixel grezzi. Invece, converte le immagini in quello che viene chiamato “token semantici”, che sono versioni compatte e astratte di una sezione dell’immagine. Pensate a questi token come a piccoli pezzi di puzzle, ognuno dei quali rappresenta una porzione di 16×16 dell’immagine originale. Proprio come le parole formano frasi, questi token creano una versione astratta di un’immagine che può essere utilizzata per compiti di elaborazione complessi, preservando al contempo le informazioni dell’immagine originale. Questa fase di tokenizzazione può essere addestrata all’interno di un framework di autoapprendimento, consentendo di effettuare il pre-addestramento su grandi set di dati di immagini senza etichette.

La magia inizia quando MAGE utilizza il “masked token modeling”. Nasconde casualmente alcuni di questi token, creando un puzzle incompleto, e quindi addestra una rete neurale a riempire i vuoti. In questo modo, impara sia a comprendere i pattern in un’immagine (riconoscimento dell’immagine) che a generarne di nuove (generazione dell’immagine).

“Una parte notevole di MAGE è la sua strategia di mascheramento variabile durante il pre-addestramento, che gli consente di addestrarsi per entrambi i compiti, generazione o riconoscimento dell’immagine, all’interno dello stesso sistema”, afferma Tianhong Li, uno studente di dottorato in ingegneria elettrica e informatica al MIT, un affiliato di CSAIL e l’autore principale di un articolo sulla ricerca. “La capacità di MAGE di lavorare nello ‘spazio dei token’ anziché nello ‘spazio dei pixel’ porta a una generazione di immagini chiara, dettagliata e di alta qualità, oltre a rappresentazioni di immagini semanticamente ricche. Questo potrebbe aprire la strada a modelli avanzati e integrati di visione artificiale.”

Oltre alla sua capacità di generare immagini realistiche da zero, MAGE consente anche la generazione condizionale di immagini. Gli utenti possono specificare determinati criteri per le immagini che desiderano che MAGE generi e lo strumento creerà l’immagine appropriata. È in grado anche di compiere compiti di modifica delle immagini, come rimuovere elementi da un’immagine mantenendo un aspetto realistico.

I compiti di riconoscimento sono un altro punto di forza di MAGE. Con la sua capacità di effettuare il pre-addestramento su grandi set di dati non etichettati, può classificare le immagini utilizzando solo le rappresentazioni apprese. Inoltre, eccelle nell’apprendimento a pochi esempi, raggiungendo risultati impressionanti su grandi set di dati di immagini come ImageNet con solo una manciata di esempi etichettati.

La validazione delle prestazioni di MAGE è stata impressionante. Da un lato, ha stabilito nuovi record nella generazione di nuove immagini, superando i modelli precedenti con un miglioramento significativo. Dall’altro lato, MAGE si è classificato al primo posto nei compiti di riconoscimento, raggiungendo un’accuratezza del 80,9 percento nella prova lineare e un’accuratezza del 71,9 percento a 10 scatti su ImageNet (ciò significa che ha identificato correttamente le immagini nel 71,9 percento dei casi in cui aveva solo 10 esempi etichettati per ogni classe).

Nonostante i suoi punti di forza, il team di ricerca riconosce che MAGE è un lavoro in corso. Il processo di conversione delle immagini in token porta inevitabilmente a una certa perdita di informazioni. Sono interessati a esplorare modi per comprimere le immagini senza perdere dettagli importanti in lavori futuri. Il team intende anche testare MAGE su set di dati più grandi. Possibili future esplorazioni potrebbero includere l’addestramento di MAGE su set di dati non etichettati più grandi, potenzialmente portando a prestazioni ancora migliori.

“È stato un lungo sogno realizzare la generazione di immagini e il riconoscimento di immagini in un singolo sistema. MAGE è una ricerca innovativa che sfrutta con successo la sinergia di questi due compiti e raggiunge il massimo livello in un singolo sistema”, afferma Huisheng Wang, ingegnere software senior di interazioni umane presso la divisione di Ricerca e Intelligenza Artificiale di Google, che non ha partecipato al lavoro. “Questo sistema innovativo ha applicazioni di vasta portata e ha il potenziale per ispirare molti futuri lavori nel campo della visione artificiale.”

Li ha scritto l’articolo insieme a Dina Katabi, il professor Thuan e Nicole Pham nel Dipartimento di Ingegneria Elettrica e Informatica del MIT e investigatore principale di CSAIL; Huiwen Chang, uno scienziato senior di ricerca di Google; Shlok Kumar Mishra, uno studente di dottorato presso l’Università del Maryland e stagista di ricerca presso Google Research; Han Zhang, uno scienziato senior di ricerca presso Google; e Dilip Krishnan, uno scienziato di ricerca dello staff presso Google. Le risorse computazionali sono state fornite da Google Cloud Platform e dalla collaborazione di ricerca MIT-IBM Watson. La ricerca del team è stata presentata alla Conferenza su Visione Artificiale e Riconoscimento di Pattern del 2023.