Il primo AI visuale e linguistica a uso generale LLaVA

Il primo AI LLaVA per uso generale

LLaVA: Colmare il Divario tra l’Intelligenza Artificiale Visiva e Linguistica con GPT-4

Originariamente pubblicato su louisbouchard.ai, letta 2 giorni prima sul mio blog!

Guarda il video!

GPT-4 è potente, ma sapevi che alcuni IA sono costruite interamente grazie ad esso? Sì, GPT-4 è così bravo che può essere utilizzato per generare dati sufficientemente buoni per addestrare altri modelli di IA. E non solo qualsiasi modello, ma modelli migliori di sé stesso! Liu et al. hanno appena utilizzato GPT-4 per creare un modello di visione del linguaggio a uso generale chiamato LLaVA, il primo modello a uso generale che comprende e segue istruzioni visive e linguistiche. Fondamentalmente, un modello che ha una comprensione quasi perfetta di testo e immagini contemporaneamente. Quindi puoi chiedergli qualsiasi cosa su qualsiasi immagine. Dal momento che GPT-4 non è ancora in grado di vedere le immagini, ma è incredibilmente bravo con il testo, possiamo inviargli le didascalie delle nostre immagini e chiedergli di produrre diversi tipi di output come domande per Q&A, una descrizione più dettagliata dell’immagine o addirittura domande e risposte di ragionamento sull’immagine. Ecco cosa hanno fatto gli autori. Hanno dato un ruolo e una personalità al modello GPT-4 e gli hanno chiesto di generare vari tipi di dati basati sulla didascalia iniziale che avevano per ogni immagine.

“Un esempio per illustrare i dati di istruzioni seguite. Il blocco superiore mostra i contesti come didascalie e caselle utilizzate per sollecitare GPT, e il blocco inferiore mostra i tre tipi di risposte. Notare che l'immagine visiva non viene utilizzata per sollecitare GPT, la mostriamo solo come riferimento.” Immagine e didascalia tratte dal paper.

Ecco come sono apparse le istruzioni date a GPT-4 nel caso di LLaVA per costruire il miglior dataset possibile per consentire al modello linguistico di comprendere l’immagine nel modo più approfondito possibile. Passando dalla richiesta di descrivere l’immagine in modo conciso a una descrizione esauriente o addirittura a un’analisi approfondita di essa.

L'elenco di istruzioni per una breve descrizione dell'immagine. Immagine tratte dal paper.

Queste richieste generate dall’utente e le risposte generate da GPT-4 popoleranno un buon dataset pieno di diverse domande, risposte e descrizioni delle nostre immagini, consentendoci di addestrare la nostra IA multimodale, quindi un’IA in grado di elaborare immagini e testi per poi inviare il…