Questo articolo sull’IA introduce LLaVA-Plus un assistente multimodale ad uso generale che amplia le capacità dei grandi modelli multimodali’.

Amplia le capacità dei grandi modelli multimodali con LLaVA-Plus un assistente multimodale ad uso generale - L'IA prende il palcoscenico

La creazione di assistenti multitasking in grado di svolgere efficientemente diverse attività del mondo reale seguendo le istruzioni (multimodali) degli utenti è da tempo un obiettivo nell’intelligenza artificiale. In questo ambito si è recentemente registrato un aumento di interesse nella creazione di modelli di base con comprensione multimodale emergente e capacità di generazione nelle sfide del mondo reale. Come creare assistenti multimodali multitasking per le attività di visione computerizzata e visione del linguaggio ancora resta da scoprire, nonostante l’efficacia dell’utilizzo di modelli linguistici di grandi dimensioni (LLM) come ChatGPT per produrre assistenti multitasking per compiti di linguaggio naturale.

Gli sforzi attuali volti a creare agenti multimodali possono essere generalmente suddivisi in due gruppi:

(i) Allenamento end-to-end utilizzando LLM, in cui si creano successioni di modelli multimodali di grandi dimensioni (LMM) attraverso l’allenamento continuo di LLM per imparare come interpretare le informazioni visive utilizzando dati immagine-testo e dati di istruzioni multimodali. I modelli open source come LLaVA e MiniGPT-4 e i modelli privati come Flamingo e multimodal GPT-4 hanno dimostrato un’impressionante comprensione visiva e abilità di ragionamento. Sebbene questi approcci di allenamento end-to-end funzionino bene per aiutare LMM nell’acquisizione di abilità emergenti (come l’apprendimento in contesto), la creazione di un’architettura coesa che possa integrare senza soluzione di continuità un’ampia gamma di capacità – come la segmentazione e la generazione di immagini – che sono essenziali per le applicazioni multimodali nel mondo reale è ancora un compito difficile.

(ii) Concatenazione di strumenti con LLM, in cui le istruzioni sono progettate attentamente per consentire a LLM di richiamare vari strumenti (come i modelli di visione già addestrati) per eseguire le attività desiderate senza richiedere ulteriori addestramenti del modello. VisProg, ViperGPT, Visual ChatGPT, X-GPT e MM-REACT sono opere ben note. Il punto di forza di questi approcci è la capacità di gestire una vasta gamma di compiti visivi utilizzando strumenti (nuovi) che possono essere sviluppati a basso costo e integrati in un agente di intelligenza artificiale. Tuttavia, le istruzioni devono essere più flessibili e affidabili per consentire agli agenti multimodali di scegliere e attivare in modo affidabile gli strumenti giusti (da un set di strumenti ampio e variegato) e comporre i risultati per fornire soluzioni finali per compiti multimodali nel mondo reale.

Figura 1: Rappresentazione grafica delle possibilità di LLaVA-Plus rese possibili tramite l’acquisizione di abilità.

Ricercatori provenienti dalla Tsinghua University, Microsoft Research, University of Wisconsin-Madison, HKUST e IDEA Research descrivono in questo articolo LLaVA-Plus (Assistenti Multitasking di Grande Dimensione Linguaggio e Visione che Collegano ed Apprendono a Utilizzare le Abilità), un assistente multimodale con un’ampia gamma di applicazioni che acquisisce abilità nell’uso degli strumenti attraverso una metodologia di addestramento end-to-end che potenzializza sistematicamente le capacità di LMM attraverso la regolazione delle istruzioni visive. Secondo la loro conoscenza, si tratta del primo tentativo documentato di combinare i vantaggi delle tecniche di concatenazione degli strumenti e di addestramento end-to-end descritte in precedenza. Il repository di abilità fornito con LLaVA-Plus dispone di una vasta selezione di strumenti per visione e visione-linguaggio. Il design è un esempio della teoria della “Società della Mente”, in cui gli strumenti individuali vengono creati per determinati compiti e hanno un uso limitato da soli; tuttavia, quando questi strumenti vengono combinati, forniscono abilità emergenti che dimostrano una maggiore intelligenza.

Ad esempio, dato l’input multimodale degli utenti, LLaVA-Plus può creare istantaneamente un nuovo flusso di lavoro, scegliere ed attivare strumenti pertinenti dalla libreria di abilità e assemblare i risultati delle loro esecuzioni per completare varie attività del mondo reale che non erano visibili durante l’addestramento del modello. Attraverso la regolazione delle istruzioni, LLaVA-Plus può essere potenziato nel tempo aggiungendo ulteriori capacità o strumenti. Si consideri un nuovo strumento multimodale creato per un determinato caso d’uso o abilità. Per costruire dati di istruzioni per l’aggiustamento, si raccolgono istruzioni utente rilevanti che richiedono questo strumento insieme ai risultati delle loro esecuzioni o ai risultati che ne derivano. Dopo l’aggiustamento delle istruzioni, LLaVA-Plus guadagna più capacità imparando ad utilizzare questo nuovo strumento per svolgere compiti precedentemente impossibili.

Inoltre, LLaVA-Plus si discosta dagli studi precedenti sull’addestramento all’uso degli strumenti per i LLM utilizzando esclusivamente indizi visivi in combinazione con strumenti multimodali. D’altra parte, LLaVA-Plus potenzia la capacità di pianificazione e ragionamento di LMM utilizzando segnali visivi non elaborati per tutte le sessioni di contatto uomo-intelligenza artificiale. Per riassumere, i contributi del loro articolo sono i seguenti:

• Utilizzo dei dati per uno strumento di istruzioni multimodale. Utilizzando ChatGPT e GPT-4 come strumenti di etichettatura, descrivono una nuova pipeline per la selezione dei dati di istruzioni visione-linguaggio destinati all’uso come strumento nelle sessioni di interazione uomo-intelligenza artificiale.

• Un nuovo, grande assistente multimodale. Hanno creato LLaVA-Plus, un assistente multimodale con un’ampia gamma di utilizzi che amplia LLaVA integrando una vasta e variegata collezione di strumenti esterni che possono essere rapidamente scelti, assemblati e utilizzati per completare compiti. La Figura 1 illustra come LLaVA-Plus ampli le possibilità di LMM. La loro indagine empirica verifica l’efficacia di LLaVA-Plus mostrando risultati costantemente migliori su diversi benchmark, in particolare il nuovo SoTA su VisiT-Bench con una vasta gamma di attività reali.

• Senza fonte. I materiali che renderanno disponibili al pubblico sono i dati di istruzioni multimodali prodotti, la base di codice, i checkpoint di LLaVA-Plus e una demo di chat visiva.