All’interno di LlaVA la prima alternativa open source a GPT-4V

All'interno di LlaVA la prima alternativa open source a GPT-4V

Il modello supera GPT-4 in diverse attività di istruzioni visive.

Image Credit: https://www.reddit.com/r/machinelearningnews/comments/1388fp2/meet_llava_a_large_language_multimodal_model_and/

Di recente ho avviato una newsletter educativa incentrata sull’IA, che già conta oltre 160.000 iscritti. TheSequence è una newsletter orientata all’apprendimento automatico, in cui non vengono trattate notizie o hype, che richiede solo 5 minuti di lettura. L’obiettivo è tenerti aggiornato sui progetti di apprendimento automatico, gli articoli di ricerca e i concetti. Prova a iscriverti qui di seguito:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornato sugli sviluppi nel campo del machine learning, dell’intelligenza artificiale e dei dati…

thesequence.substack.com

Alcune settimane fa, OpenAI ha presentato nuove capacità di elaborazione di immagini e audio in GPT-4. Fondamentalmente, il laboratorio di intelligenza artificiale ha annunciato un nuovo modello chiamato GPT-4 Vision(GPT-4V), che consente agli utenti di istruire GPT-4 su immagini e ingressi audio. GPT-4V rappresenta uno sviluppo interessante nello spazio dei modelli di base multimodali. Solo pochi giorni dopo l’annuncio di GPT-4V, abbiamo già avuto la prima alternativa open source. I ricercatori dell’Università del Wisconsin-Madison e Microsoft Research hanno presentato Large Language and Vision Assistant (LLaVA), un LLM multimodale basato su LLaMA capace di elaborare immagini e audio come input.

LLaVA è una meraviglia addestrata in modo completo che supera in modo fluido il divario tra un codificatore visivo e LLM (Large Language Model) per offrire una comprensione completa della visione e del linguaggio. I primi esperimenti con LLaVA hanno rivelato la sua notevole capacità nelle interazioni chat multimodali, mostrando occasionalmente comportamenti simili a quelli del tanto atteso Multimodal GPT-4, anche quando vengono presentate immagini e istruzioni mai viste in precedenza.

Un passo innovativo compiuto in questo ambito è l’esplorazione del tuning dell’istruzione visiva. Questo segna l’effort di pionieristica per estendere il concetto di tuning dell’istruzione nel campo dell’IA multimodale, gettando così le basi per lo sviluppo di un assistente visivo versatile e di uso generale. L’articolo che accompagna la presentazione di LLaVA contribuisce significativamente a questo settore nei seguenti modi:

· Dati di seguito istruzioni multimodali: Una sfida fondamentale affrontata in questo percorso è la scarsità di dati di istruzioni visione-linguaggio. Per affrontare questo problema, è stato ideato un nuovo approccio e un flusso di dati di riforma. Questa tecnica trasforma efficacemente le coppie immagine-testo nel formato richiesto per il seguito dell’istruzione, sfruttando il potere di ChatGPT/GPT-4.

· Modelli multimodali di grandi dimensioni: LLaVA prende vita attraverso la creazione di un Large Multimodal Model (LMM). Questa impresa è stata realizzata unendo l’encoder visivo a insieme aperto di CLIP con il decoder del linguaggio conosciuto come LLaMA. Questi componenti sono stati quindi sintonizzati insieme utilizzando i dati di istruzione visione-linguaggio generati durante il progetto. La ricerca empirica estesa ha convalidato l’efficacia dell’impiego di dati generati per l’addestramento dell’istruzione LMM, offrendo spunti pratici per lo sviluppo di un agente visivo versatile che segue le istruzioni. Vale la pena sottolineare che con GPT-4, LLaVA ha raggiunto un livello di prestazioni all’avanguardia sul dataset di ragionamento multimodale Science QA.

· Iniziativa Open-Source: Nello spirito di collaborazione e di condivisione delle conoscenze, il team dietro LLaVA è orgoglioso di mettere a disposizione del pubblico diversi asset di valore.

Sicuramente, il contributo più importante di LLaVA è il modo in cui sfrutta GPT-4 per generare un dataset tarato sull’istruzione.

Generazione di dati di istruzioni visive utilizzando GPT-4

Nel campo dei dati multimodali, la comunità ha assistito a un significativo afflusso di risorse disponibili pubblicamente, che comprendono un’ampia gamma di coppie immagine-testo da CC a LAION. Tuttavia, per quanto riguarda il campo dei dati di istruzioni multimodali, la disponibilità rimane limitata. Questa scarsità è in parte dovuta al processo laborioso e alquanto nebuloso coinvolto, in particolare quando si fa affidamento sulla crowd-sourcing umana. Traguardando il notevole successo dei recenti modelli GPT nei compiti di annotazione del testo, emerge la proposta: sfruttiamo il potere di ChatGPT/GPT-4 per la raccolta di dati di istruzioni multimodali, basandoci sulla ricchezza di dati esistenti di coppie di immagini.

Pensiamo a un’immagine, Xv, e alla sua didascalia corrispondente, Xc. Naturalmente si presta alla creazione di un insieme di domande, Xq, volte a istruire un assistente AI a descrivere il contenuto dell’immagine. Avviando GPT-4, curiamo un elenco di tali domande, come mostrato nella Tabella 8 all’interno dell’Appendice. In questo modo, si dà forma a un approccio diretto per espandere una coppia immagine-testo nel suo corrispettivo di istruzione seguente: L’essere umano propone Xq Xv<STOP>nn, mentre l’Assistente risponde con Xc<STOP>nn. Anche se conveniente dal punto di vista dei costi, questo metodo di espansione diretta è un po’ limitato in termini di diversità e profondità, sia nelle istruzioni che nelle risposte risultanti.

Per affrontare questa limitazione, l’approccio passa a sfruttare i modelli GPT-4 o ChatGPT focalizzati sul linguaggio come insegnanti formidabili. Questi modelli, accettando il testo come input, entrano in gioco per creare dati di istruzione di sequenza che incorporano contenuti visivi. La metodologia è chiara: per tradurre un’immagine nelle sue caratteristiche visive per sollecitare un GPT solo testo, entrano in gioco rappresentazioni simboliche. Queste rappresentazioni si dividono in due categorie:

· Didascalie: Queste fungono da descrizioni testuali che offrono prospettive diverse sulla scena visiva.

· Riquadri di delimitazione: Questi pratici riquadri servono a individuare e delimitare gli oggetti all’interno della scena. Ogni riquadro codifica non solo il concetto dell’oggetto, ma anche la sua posizione spaziale.

· Con questo innovativo approccio, l’impegno per espandere i dati di istruzioni multimodali è orientato a sbloccare nuove dimensioni di diversità e profondità, colmando il divario tra contenuto visivo e istruzioni testuali. Restate sintonizzati mentre GPT-4 continua a rivoluzionare il campo dell’IA multimodale.

Credito immagine: https://llava-vl.github.io/

LLaVA Architettura

LLaVA connette senza soluzione di continuità l’encoder visivo pre-addestrato CLIP ViT-L/14 con il potente modello di linguaggio esteso Vicuna, attraverso una semplice matrice di proiezione. Il cammino verso le sue notevoli capacità si svela in un processo di messa a punto delle istruzioni a due fasi:

Fase 1: Pre-addestramento per l’allineamento delle caratteristiche

In questa prima fase, l’attenzione si concentra solo sull’aggiornamento della matrice di proiezione. Questo aggiornamento si basa su un sottoinsieme dei dati CC3M, aprendo le porte a ulteriori progressi.

Fase 2: Messa a punto fine-tuning End-to-End

Qui, il momentum si costruisce man mano che sia la matrice di proiezione che il LLM vengono aggiornati, per soddisfare due scenari di utilizzo distinti:

· Chat Visuale: LLaVa viene sottoposto a messa a punto fine-tuning utilizzando i nostri dati di istruzioni multimodali appositamente creati, progettati per soddisfare le esigenze quotidiane degli utenti.

· Domande e risposte scientifiche: LLaVa si impegna in un percorso di messa a punto fine-tuning utilizzando un insieme di dati di ragionamento multimodale adattato all’intricato campo scientifico.

Credito immagine: https://llava-vl.github.io/

Il concetto di ottimizzazione dell’istruzione per modelli di lingua di grandi dimensioni (LLM) utilizzando dati di istruzione seguiti da macchina ha senza dubbio elevato le capacità di zero-shot nel campo linguistico. Tuttavia, la sua applicazione nel campo dell’IA multimodale rimane ancora un territorio relativamente inesplorato.

Risultati Iniziali

Le valutazioni iniziali di LLaVA mostrano risultati incredibili se confrontati con GPT-4.

Crediti immagine: https://llava-vl.github.io/

I primi capitoli della storia di LLaVA sono davvero sorprendenti. Questi esperimenti rivelano le impressionanti capacità di chat di LLaVA, a volte riflettendo i comportamenti di GPT-4 multimodale di fronte a immagini e istruzioni non viste. Vanta un impressionante punteggio relativo del 85.1% rispetto a GPT-4 su un set di dati sintetico di istruzioni seguito multimodale. Inoltre, quando LLaVA e GPT-4 si uniscono dopo un’affinazione su Science QA, raggiungono un’accuratezza senza precedenti, con uno straordinario 92.53%.

Crediti immagine: https://llava-vl.github.io/

LLaVA rappresenta uno degli sviluppi più interessanti nel mondo degli LLM multimodali ed è un passo importante per il movimento di modelli di base open-source.