Il primo AI visuale e linguistica a uso generale LLaVA
Il primo AI LLaVA per uso generale
LLaVA: Colmare il Divario tra l’Intelligenza Artificiale Visiva e Linguistica con GPT-4
Originariamente pubblicato su louisbouchard.ai, letta 2 giorni prima sul mio blog!
Guarda il video!
GPT-4 è potente, ma sapevi che alcuni IA sono costruite interamente grazie ad esso? Sì, GPT-4 è così bravo che può essere utilizzato per generare dati sufficientemente buoni per addestrare altri modelli di IA. E non solo qualsiasi modello, ma modelli migliori di sé stesso! Liu et al. hanno appena utilizzato GPT-4 per creare un modello di visione del linguaggio a uso generale chiamato LLaVA, il primo modello a uso generale che comprende e segue istruzioni visive e linguistiche. Fondamentalmente, un modello che ha una comprensione quasi perfetta di testo e immagini contemporaneamente. Quindi puoi chiedergli qualsiasi cosa su qualsiasi immagine. Dal momento che GPT-4 non è ancora in grado di vedere le immagini, ma è incredibilmente bravo con il testo, possiamo inviargli le didascalie delle nostre immagini e chiedergli di produrre diversi tipi di output come domande per Q&A, una descrizione più dettagliata dell’immagine o addirittura domande e risposte di ragionamento sull’immagine. Ecco cosa hanno fatto gli autori. Hanno dato un ruolo e una personalità al modello GPT-4 e gli hanno chiesto di generare vari tipi di dati basati sulla didascalia iniziale che avevano per ogni immagine.
Ecco come sono apparse le istruzioni date a GPT-4 nel caso di LLaVA per costruire il miglior dataset possibile per consentire al modello linguistico di comprendere l’immagine nel modo più approfondito possibile. Passando dalla richiesta di descrivere l’immagine in modo conciso a una descrizione esauriente o addirittura a un’analisi approfondita di essa.
Queste richieste generate dall’utente e le risposte generate da GPT-4 popoleranno un buon dataset pieno di diverse domande, risposte e descrizioni delle nostre immagini, consentendoci di addestrare la nostra IA multimodale, quindi un’IA in grado di elaborare immagini e testi per poi inviare il…