Aprire una strada nella generazione di visione e linguaggio intrecciati svelando il potere dei generativi Vokens con MiniGPT-5

Aprire una strada nella generazione di visione e linguaggio intrecciati svelando il potere dei generativi Vokens con MiniGPT-5

I modelli di lingua di grandi dimensioni eccellono nella comprensione e generazione del linguaggio umano. Questa capacità è fondamentale per attività come il riassunto del testo, l’analisi di sentimenti, la traduzione e i chatbot, rendendoli strumenti preziosi per l’elaborazione del linguaggio naturale. Questi modelli possono migliorare i sistemi di traduzione automatica, consentendo traduzioni più accurate e consapevoli del contesto tra diverse lingue, con numerose applicazioni globali nel campo della comunicazione e degli affari.

I modelli di linguaggio di grandi dimensioni sono in grado di riconoscere e categorizzare entità nominative nel testo, come nomi di persone, luoghi, organizzazioni, date e altro. Possono rispondere a domande basate sulle informazioni presenti in un passaggio o documento. Capiscono il contesto della domanda ed estraggono informazioni rilevanti per fornire risposte accurate. Tuttavia, gli attuali modelli di linguaggio di grandi dimensioni si basano sulla lavorazione di coppie di testo e immagini. Hanno bisogno di assistenza quando il compito è generare nuove immagini. Le nuove sfide di visione e linguaggio dipendono in gran parte da dati centrati su argomenti e spesso trascurano i descrittori di immagini.

I ricercatori dell’Università della California hanno sviluppato un nuovo modello chiamato MiniGPT-5 , che coinvolge tecniche di generazione di visione e linguaggio basate su “generative vokens”. Questo codificatore multimodale è una nuova tecnica dimostratasi efficace rispetto ad altri modelli di linguaggio di grandi dimensioni. Combina i “generative vokens” con modelli di diffusione stabili per generare output di visione e linguaggio.

Il termine “generative vokens” si riferisce a speciali token visivi che possono essere addestrati direttamente su immagini grezze. I token visibili si riferiscono agli elementi aggiunti all’input del modello per incorporare informazioni visive o consentire una comprensione multimodale. Quando si generano didascalie per le immagini, un modello può prendere in input un’immagine, suddividerla in una serie di speciali token visivi e combinarli con token testuali che rappresentano il contesto o la descrizione dell’immagine. Questa integrazione consente al modello di generare didascalie significative e pertinenti nel contesto per le immagini.

I ricercatori seguono un metodo a due fasi, in cui la prima fase consiste nell’allineamento unimodale delle caratteristiche visive di alta qualità allineate al testo da grandi coppie di testo e immagini, e la seconda fase coinvolge garantire che le prompt visive e testuali siano ben coordinate nella generazione. Il loro metodo di generiche fasi consente di eliminare annotazioni specifiche di dominio e rende la soluzione derivata dai lavori esistenti. Hanno seguito la strategia a doppia perdita per bilanciare il testo e le immagini. Il loro metodo adattato ottimizza anche l’efficienza di addestramento e affronta i vincoli di memoria, che possono essere facilmente risolti.

Il team ha implementato un miglioramento dei parametri efficiente sulla codificatore MiniGPT-4 per addestrare meglio il modello a capire istruzioni o suggerimenti ed aumentare le sue prestazioni in compiti nuovi o a zero. Hanno anche provato ad adattare i prompt e LoRA sul codificatore del linguaggio Vicuna utilizzato in MiniGPT-4. I lavori futuri su questi metodi amplieranno le applicazioni, che sembravano difficili in precedenza a causa della natura frammentata dei modelli esistenti di immagini e testo.