Microsoft AI propone MM-REACT un paradigma di sistema che combina ChatGPT ed esperti di visione per un ragionamento multimodale avanzato e azione.

Microsoft AI propone MM-REACT, un paradigma di sistema che combina ChatGPT e visione per un ragionamento multimodale avanzato e azione.

I Grandi Modelli di Linguaggio (LLM) stanno avanzando rapidamente e contribuendo a notevoli trasformazioni economiche e sociali. Con molti strumenti di intelligenza artificiale (IA) che vengono rilasciati su Internet, uno strumento che è diventato estremamente popolare negli ultimi mesi è ChatGPT. ChatGPT è un modello di elaborazione del linguaggio naturale che consente agli utenti di generare testo significativo come gli esseri umani. ChatGPT di OpenAI si basa sull’architettura del trasformatore GPT, con GPT-4 che è l’ultimo modello di linguaggio che lo alimenta.

Con gli ultimi sviluppi dell’intelligenza artificiale e dell’apprendimento automatico, la visione artificiale ha fatto enormi progressi, con un’architettura di rete migliorata e una formazione di modelli su larga scala. Recentemente, alcuni ricercatori hanno introdotto MM-REACT, che è un paradigma di sistema che compone numerosi esperti di visione con ChatGPT per il ragionamento e l’azione multimodale. MM-REACT combina modelli di visione individuali con il modello di linguaggio in modo più flessibile per superare sfide complesse di comprensione visiva.

MM-REACT è stato sviluppato con l’obiettivo di occuparsi di una vasta gamma di compiti visivi complessi con cui gli attuali modelli di visione e visione-linguaggio hanno difficoltà. A tal fine, MM-REACT utilizza un design di prompt per rappresentare vari tipi di informazioni, come descrizioni di testo, coordinate spaziali testualizzate e segnali visivi densi, come immagini e video, rappresentati come nomi di file allineati. Questo design consente a ChatGPT di accettare e elaborare diversi tipi di informazioni in combinazione con l’input visivo, portando a una comprensione più accurata e completa.

MM-REACT è un sistema che combina le capacità di ChatGPT con un gruppo di esperti di visione per l’aggiunta di funzionalità multimodali. Il percorso del file viene utilizzato come segnaposto e inserito in ChatGPT per consentire al sistema di accettare immagini come input. Ogni volta che il sistema richiede informazioni specifiche dall’immagine, come l’identificazione di un nome di celebrità o le coordinate di una casella, ChatGPT chiede aiuto a un esperto di visione specifico. L’output dell’esperto viene quindi serializzato come testo e combinato con l’input per attivare ulteriormente ChatGPT. La risposta viene restituita direttamente all’utente se non sono necessari esperti esterni.

ChatGPT è stato sviluppato per comprendere le conoscenze dell’utilizzo degli esperti di visione aggiungendo determinate istruzioni ai prompt di ChatGPT che sono correlate alle capacità di ciascun esperto, al tipo di argomento di input e al tipo di output, insieme a alcuni esempi in contesto per ciascun esperto. Inoltre, viene fornita un’istruzione speciale per l’utilizzo della corrispondenza delle espressioni regolari per invocare l’esperto di conseguenza.

Mediante sperimentazioni, gli esperimenti Zero-shot hanno mostrato come MM-REACT affronti efficacemente le sue particolari capacità di interesse. Si è dimostrato efficiente nella risoluzione di una vasta gamma di compiti visivi avanzati che richiedono una comprensione visiva complessa. Gli autori hanno condiviso alcuni esempi in cui MM-REACT è in grado di fornire soluzioni a equazioni lineari visualizzate su un’immagine. Inoltre, è in grado di eseguire la comprensione concettuale denominando i prodotti nell’immagine e i loro ingredienti e così via. In conclusione, questo paradigma di sistema combina in modo eccellente l’esperienza linguistica e visiva ed è in grado di raggiungere un’intelligenza visiva avanzata.