MiniGPT-5 Generazione intrecciata visione-linguaggio tramite Generative Vokens

MiniGPT-5 La visione-linguaggio intrecciata tramite Generative Vokens della quinta generazione

Negli ultimi anni, i Large Language Models (LLM) hanno attirato l’attenzione degli sviluppatori di intelligenza artificiale in tutto il mondo grazie alle innovazioni nel Natural Language Processing (NLP). Questi modelli hanno stabilito nuovi standard nella generazione e comprensione del testo. Tuttavia, nonostante i progressi nella generazione del testo, produrre immagini che corrispondano coerentemente alle narrazioni testuali è ancora una sfida. Per affrontare questo problema, gli sviluppatori hanno introdotto un nuovo approccio alla generazione di immagini e linguaggio basato sui “generative vokens”, riducendo la discrepanza nelle uscite testo-immagine.

La base di MiniGPT-5 è una strategia di addestramento a due fasi che si concentra sulla generazione di dati multimodali senza l’uso di descrizioni dettagliate delle immagini. Inoltre, per migliorare l’integrità del modello, viene incorporato un sistema di guida senza classificatori che migliora l’efficacia dei voken nella generazione di immagini. Nella fase iniziale, il framework di MiniGPT-5 ha dimostrato un’elevata performance e un miglioramento sostanziale del modello Divter di base, addestrato sul dataset MMDialog, dimostrando costantemente la capacità di produrre uscite multimodali comparabili, se non superiori, nelle valutazioni umane eseguite sul dataset VIST, evidenziando in tal modo la sua performance ed efficienza. 

MiniGPT5: Un’introduzione

Con i recenti sviluppi dei framework LLM e delle applicazioni basate su tali framework, l’integrazione delle caratteristiche multimediali è diventata un campo di crescente popolarità, fondamentale per una vasta gamma di applicazioni, dai software di creazione di contenuti all’avanguardia agli agenti di dialogo multimodale. Con la ricerca e lo sviluppo continui, modelli di linguaggio e visione sono arrivati al punto in cui si sta lavorando per abilitarli a generare dati testuali e visivi in modo integrato. La capacità dei LLM di generare dati multimodali in modo fluido contribuirà a migliorare le interazioni in diverse aree, come il commercio elettronico, i media e la realtà virtuale.

In ultima analisi, l’obiettivo è consentire ai modelli di sintetizzare, riconoscere e rispondere in modo coerente e logico utilizzando entrambe le modalità testuale e visiva, giocando un ruolo cruciale nell’armonizzare il flusso delle informazioni e creare narrazioni logiche e coerenti. La necessità di raggiungere un equilibrio tra le modalità testuale e visiva è motivata principalmente dalla necessità di interazioni multimodali più fluide, integrate e interattive nei LLM, oltre che dal raggiungimento dell’alternanza di generazione di linguaggio e visione. Tuttavia, l’ottenimento di interazioni multimodali integrate e interattive nei LLM è un compito complesso pieno di numerosi ostacoli, tra cui:

  1. Sebbene gli attuali LLM siano efficienti e capaci nella generazione di testo e nel trattamento di coppie testo-immagine, non riescono a fornire una performance soddisfacente nella generazione di immagini. 
  2. Lo sviluppo di questi modelli di visione e linguaggio si basa fortemente su dati focalizzati su specifici argomenti, il che rende difficile per i modelli allineare il testo generato con le relative immagini. 
  3. Infine, è necessario sviluppare strategie più efficaci poiché con l’aumento delle capacità dei LLM aumenta anche la memoria richiesta, soprattutto durante l’esecuzione di attività.

Il framework di MiniGPT-5, una tecnica di algoritmo di generazione di linguaggio e visione intercalata che introduce il concetto di “generative vokens” nel tentativo di affrontare le sfide sopra menzionate. Il framework MiniGPT-5 propone un nuovo approccio per la generazione di dati multimodali, unendo i Large Language Models alle tecniche di diffusione stabile, utilizzando speciali token visivi. Il metodo di addestramento a due fasi proposto dal framework MiniGPT-5 sottolinea l’importanza di una fase di base priva di descrizioni, preparando il modello per fornire prestazioni efficienti anche in scenari con dati limitati.

Ma ciò che distingue il modello MiniGPT-5 dai framework attuali è che le fasi generiche del framework MiniGPT-5 non includono annotazioni specifiche di dominio. Inoltre, per garantire che il testo generato e le relative immagini siano in armonia tra loro, il framework MiniGPT-5 utilizza una strategia a due perdite andando a potenziare ulteriormente l’approccio del MiniGPT-5 che si basa su guida senza classificatori e generative vokens. Il framework MiniGPT-5 ottimizza l’efficienza dell’addestramento e affronta i vincoli di memoria grazie alla sua strategia di sintonizzazione dei parametri efficiente.

Per fornirti un breve riassunto, il framework MiniGPT-5:

  1. Propone un metodo che utilizza encoder multimodali che rappresentano un nuovo e generico metodo che storicamente si è dimostrato più efficace rispetto ai tradizionali LLM, e utilizza token generativi combinati con tecniche di Diffusione Stabile per generare output linguistici e visivi intercalati.
  2. Propone una strategia di addestramento a due fasi per la generazione di output multimodali senza descrizione, e l’inclusione di una guida senza classificatori durante l’addestramento per affinare ulteriormente la qualità dei dati generati.

Il modello MiniGPT-5 si ispira molto alle ricerche e al lavoro precedenti nei campi di:

  • Generazione di testo in immagini: Per facilitare la trasformazione delle descrizioni testuali nelle rispettive rappresentazioni visive e modelli di testo in immagini.
  • LLM o Grandi Modelli di Linguaggio Multimodale: Utilizzando modelli LLM pre-addestrati per esplorare le loro applicazioni ed efficacia nella generazione di dati multimodali.
  • Generazione multimodale con Grandi Modelli di Linguaggio: Per potenziare le capacità di un LLM nell’integrare in modo fluido la generazione di dati linguistici e visivi.

MiniGPT-5: Metodo, Architettura e Framework

Per fornire ai modelli di linguaggio di grandi dimensioni la capacità di generare dati multimodali, il modello MiniGPT-5 introduce un framework che mira ad integrare modelli di generazione di testo in immagini e modelli di linguaggio multimodale pre-addestrati. Il framework MiniGPT-5 introduce inoltre i “generative vokens”, speciali token visivi che consentono agli sviluppatori di affrontare le discrepanze che si presentano in diversi domini potendo addestrare direttamente su immagini non elaborate. Per migliorare ulteriormente la qualità dei dati multimodali generati dai LLM, il framework MiniGPT-5 introduce una strategia senza classificatori accoppiata a un metodo di addestramento a due fasi avanzato. Approfondiamo ulteriormente il framework MiniGPT-5.

Stadio di Input Multimodale

Gli sviluppi dei LLM nel recente passato hanno portato alla luce le loro capacità di comprensione multimodale, consentendo l’elaborazione di immagini come input sequenziale. Il framework MiniGPT-5 fa uso di vokens generativi appositamente progettati per la generazione di caratteristiche visive nel tentativo di ampliare le capacità di comprensione multimodale dei LLM anche alla generazione di dati multimodali. Inoltre, il framework MiniGPT-5 fa uso di tecniche di ottimizzazione dei parametri efficienti e all’avanguardia per l’apprendimento dell’output multimodale con il framework LLM.

Codifica Multimodale

L’encoder visivo pre-addestrato nel framework MiniGPT-5 trasforma ciascuna immagine di input in una caratteristica, mentre ciascun token di testo viene incorporato come un vettore e le caratteristiche dell’input prompt vengono generate quando tali embedding vengono concatenati tra loro.

Aggiunta di Vokens nei Grandi Modelli di Linguaggio

Tradicionalmente, il vocabolario dei Grandi Modelli di Linguaggio comprende solo token testuali, motivo per cui gli sviluppatori che lavorano sul framework MiniGPT-5 hanno dovuto colmare il divario tra i LLM generativi e quelli tradizionali. Il framework MiniGPT-5 introduce un insieme di token speciali come token generativi nel vocabolario del LLM. Il framework sfrutta quindi l’output nascosto del LLM per questi speciali vokens per la generazione successiva di immagini, e l’inserimento di immagini interscalate è rappresentato dalla posizione dei vokens.

PEFT o Parametrico Ottimizzazione dei Parametri

PEFT o Parameter Efficient Fine Tuning è un concetto cruciale utilizzato per addestrare i LLM, e tuttavia, le applicazioni di PEFT in contesti multimodali sono ancora in gran parte inesplorate. Il framework MiniGPT-5 utilizza la Parametrico Ottimizzazione dei Parametri sull’encoder del framework MiniGPT-4 per addestrare il modello a comprendere meglio i prompt o le istruzioni, e per migliorare anche le performance complessive del modello in ambienti zero-shot o nuovi.

Generazione di Output Multimodale

Per allineare accuratamente il modello generativo con i generative token, il framework MiniGPT-5 formula un modulo di mappatura compatto per il matching delle dimensioni e incorpora perdite di supervisione, compresa la perdita del modello di diffusione latente e la perdita dello spazio testo. La perdita di supervisione della diffusione latente allinea le caratteristiche visive appropriate direttamente con i token, mentre la perdita dello spazio testo aiuta il modello a imparare le posizioni corrette dei token. Poiché i generative vokens nel framework MiniGPT-5 sono guidati direttamente dalle immagini, il framework non richiede che le immagini abbiano una descrizione completa, consentendo una modalità di apprendimento priva di descrizioni.

 Generazione dello spazio testo

Il framework MiniGPT-5 segue il metodo di modellizzazione del linguaggio informale per generare sia voken che testi nello spazio testo in modo congiunto. Durante la fase di allenamento, gli sviluppatori aggiungono i voken alla posizione delle immagini vere, e allenano il modello a predire i voken nella generazione di testo.

Mappatura delle caratteristiche dei voken per la generazione di immagini

Dopo aver generato lo spazio testo, il framework allinea lo stato di output nascosto con lo spazio delle caratteristiche condizionali del testo nel modello di generazione immagine. Il framework supporta anche un modulo di mappatura delle caratteristiche che include un modello MLP a due strati, una sequenza di caratteristiche decodificabili apprendibili e un modello transformer encoder-decoder a quattro strati.

Generazione di immagini con LDM o modello di diffusione latente

Per generare le immagini richieste nel processo di riduzione del rumore, il framework utilizza le caratteristiche di mappature come input condizionale. Il framework impiega anche un LDM o modello di diffusione latente per la guida, poiché durante la fase di allenamento, l’immagine vera viene prima convertita in una caratteristica latente utilizzando un VAE preallenato, dopodiché gli sviluppatori ottengono la caratteristica di rumore latente aggiungendo del rumore.

L’approccio completo utilizzato dal framework MiniGPT-5 consente agli sviluppatori di avere una comprensione coerente e di generare elementi visivi e testuali, utilizzando token specializzati, sfruttando le capacità dei modelli preallenati e utilizzando tecniche di allenamento innovative.

MiniGPT-5: Allenamento e risultati

Lavorando sul framework MiniGPT-5, gli sviluppatori hanno osservato che l’allenamento su un insieme di dati limitato di testo e immagini interlacciati direttamente può produrre immagini di qualità ridotta e disallineamento, considerando la significativa differenza di dominio tra i domini immagine e testo. Per mitigare questo problema, gli sviluppatori hanno adottato due strategie di allenamento distinte:

  1. Includendo l’incorporazione di tecniche di guida senza classificatore che migliorano l’efficacia dei token generativi durante il processo di diffusione.
  2. La seconda strategia è ulteriormente divisa in due fasi
    1. Una fase di preallenamento iniziale che si concentra principalmente sull’allineamento delle caratteristiche grossolane.
    2. Una fase di fine-tuning che facilita l’apprendimento delle caratteristiche.

CFG o Guida senza classificatore

L’idea di sfruttare prima la CFG per la generazione multimodale è emersa nell’ambito di un tentativo di migliorare la coerenza e la logica tra le immagini e i testi generati, e la CFG viene introdotta durante il processo di diffusione del testo all’immagine. Questo metodo osserva che allenandosi sia sulla generazione incondizionata che condizionata con la dropout condizionale, il modello generativo può ottenere risultati condizionali migliorati.

Strategia di allenamento a due fasi

Dato il significativo cambiamento di dominio osservato tra la generazione testo-immagine e la generazione puramente testuale, il framework MiniGPT-5 utilizza una strategia a due fasi per l’allenamento.

  1. Fase di allineamento unimodale (UAS)
  2. Fase di apprendimento multimodale (MLS).

Inizialmente, il framework allinea le caratteristiche di generazione dell’immagine con la caratteristica di voken nei dataset singoli coppia di testo-immagine in cui ogni campione di dati contiene un solo testo e un’unica immagine, e il testo è di solito la didascalia dell’immagine. In questa fase, il framework permette all’LLM di generare voken utilizzando le didascalie come input LLM.

Una volta che l’UAS è stato eseguito con successo, il modello può generare immagini per descrizioni di testo singolo, ma ha difficoltà con la generazione linguaggio e visione interlacciata, compresa la generazione di coppie testo-immagine, e sono richieste ragionamenti complessi per la generazione di immagini e testi. Per affrontare questa sfida, gli sviluppatori hanno ulteriormente migliorato il framework MiniGPT-5 utilizzando i parametri PEFT mediante dataset interlacciati visione-linguaggio come VIST. Durante questa fase, il framework costruisce tre diverse attività dal dataset.

  1. Generazione solo testo: genera il testo correlato dato l’immagine successiva.
  2. Generazione solo immagini: genera l’immagine correlata dato il testo successivo.
  3. Generazione multimodale: genera coppie testo-immagine utilizzando il contesto dato.

MiniGPT-5: Punti di riferimento e risultati

Per valutare in modo completo le sue prestazioni nella generazione multimodale, il team di sviluppo di MiniGPT-5 confronta le sue prestazioni con altri modelli di base prominente, inclusi Divter, GILL e il modello di generazione unimodale sintonizzato. Il confronto è mostrato nella tabella qui sotto.

Il framework MiniGPT-5 comprende che l’output multimodale potrebbe avere un significato in base al contesto, ma potrebbe differire dalla realtà effettiva, motivo per cui il framework MiniGPT-5 incorpora anche input umani per valutare e valutare le prestazioni del modello. Globalmente, l’efficacia del framework MiniGPT-5 per compiti multimodali è misurata da tre prospettive.

  1. Continuità del linguaggio: valutare se il contenuto generato si allinea in modo coerente con il contesto fornito.
  2. Qualità dell’immagine: valutare la pertinenza e la chiarezza dell’immagine generata.
  3. Coesione multimodale: determinare se l’output di testo e immagine combinato è in sincronia con il contesto iniziale.

Valutazione finale VIST

Nella prima fase degli esperimenti, il framework MiniGPT-5 mira a generare le immagini corrispondenti, e la tabella di seguito riassume i risultati ottenuti da questa impostazione.

Come si può vedere, il framework MiniGPT-5 in tutte e tre le impostazioni può superare il framework SD2 adattato, evidenziando così l’efficacia del pipeline MiniGPT-5.

La figura sopra confronta le prestazioni del framework MiniGPT-5 con il framework MiniGPT-4 adattato sulle metriche di prestazione S-BERT, Rouge-L e Meteor. I risultati indicano che l’uso di generative vokens non influisce negativamente sulle prestazioni del framework quando si eseguono compiti di comprensione multimodale. I risultati dimostrano anche che il framework MiniGPT-5 è in grado di utilizzare prompt di input multimodali lungo l’asse orizzontale su una vasta gamma di dati per generare immagini di alta qualità e coerenti senza compromettere la capacità del modello originale per la comprensione multimodale.

La tabella sopra confronta le prestazioni di tre framework su 5000 campioni per la generazione multimodale dal punto di vista della coerenza multimodale, qualità dell’immagine e continuità del linguaggio. Come si può osservare, il framework MiniGPT-5 supera gli altri due modelli di base in oltre il 70% dei casi. D’altra parte, la tabella di seguito mostra le prestazioni del framework MiniGPT-5 sul set di dati di convalida CC3M per la generazione di immagini singole. Grazie alle limitazioni dei dati, gli sviluppatori hanno riscontrato un divario per l’allineamento di voken quando usato con Stable Diffusion. Nonostante questa limitazione, il framework MiniGPT-5 supera il modello di base GILL attuale in tutte le metriche.

Conclusione

In questo articolo, abbiamo parlato di MiniGPT-5, una tecnica di algoritmo di generazione di linguaggio e visione intercalata che introduce il concetto di “generative vokens” nel tentativo di sfruttare le capacità dei LLM per generare dati multimodali allineando un grande modello di linguaggio con un modello di generazione di testo e immagini preaddestrato. Abbiamo parlato dei componenti essenziali e dell’architettura complessiva del framework MiniGPT-5 insieme ai risultati che indicano notevoli miglioramenti delle prestazioni ed efficienza rispetto ai modelli di base e di stato dell’arte attuali. MiniGPT-5 aspira a stabilire un nuovo benchmark nel campo della generazione di contenuti e dati multimodali e mira a risolvere le sfide incontrate dai modelli precedenti nel tentativo di risolvere lo stesso problema.