Incontra NExT-GPT Modelli di Linguaggio Multimodali di Grandi Dimensioni (MM-LLMs) Any-to-Any Generici End-to-End

NExT-GPT MM-LLMs Large-scale Multimodal Language Models for Any-to-Any Generici End-to-End.

I modelli linguistici multimodali possono migliorare l’interazione uomo-computer consentendo una comunicazione più naturale e intuitiva tra gli utenti e i sistemi di intelligenza artificiale attraverso input vocali, testuali e visivi. Ciò può portare a risposte più contestualmente rilevanti e complete in applicazioni come chatbot, assistenti virtuali e sistemi di raccomandazione dei contenuti. Sono basati sulle fondamenta dei modelli linguistici unimodali tradizionali, come GPT-3, ma incorporano capacità aggiuntive per gestire diversi tipi di dati.

Tuttavia, i modelli linguistici multimodali possono richiedere una grande quantità di dati per funzionare bene, rendendoli meno efficienti in termini di campioni rispetto ad altri modelli di intelligenza artificiale. Allineare i dati provenienti da diverse modalità durante l’addestramento può essere una sfida. A causa della mancanza di addestramento completo da un’estremità all’altra nell’errore di propagazione, la comprensione dei contenuti e le capacità di generazione multimodale possono essere molto limitate. Poiché il trasferimento delle informazioni tra i diversi moduli si basa interamente su testi discreti prodotti dal modello linguistico multimodale, rumore ed errori sono inevitabili. Assicurare che le informazioni da ciascuna modalità siano correttamente sincronizzate è essenziale per un addestramento pratico.

Per affrontare questi problemi, i ricercatori di NeXT++, la School of Computing (NUS), hanno sviluppato NexT-GPT. Si tratta di un modello linguistico multimodale any-to-any progettato per gestire input e output in qualsiasi combinazione di modalità testo, immagine, video e audio. Consente agli encoder di codificare gli input in diverse modalità, che vengono successivamente proiettate sulle rappresentazioni del modello linguistico multimodale.

Il loro metodo prevede la modifica del modello linguistico multimodale open-source esistente come nucleo per elaborare le informazioni di input. Dopo la proiezione, i segnali multimodali prodotti con istruzioni specifiche vengono diretti a diversi encoder e infine viene generato il contenuto nelle modalità corrispondenti. Addestrare il loro modello da zero è conveniente dal punto di vista dei costi, quindi utilizzano gli encoder e i decoder preaddestrati ad alte prestazioni esistenti come Q-Former, ImageBind e i modelli di diffusione latente all’avanguardia.

Hanno introdotto una tecnica di apprendimento dell’allineamento leggera grazie alla quale l’allineamento centrato sul modello linguistico multimodale sul lato dell’encoding e l’allineamento seguendo le istruzioni sul lato del decoding richiedono efficientemente minimi aggiustamenti dei parametri per un allineamento semantico efficace. Hanno persino introdotto un accordo di sintonizzazione delle istruzioni per il cambio di modalità per dotare il loro modello any-to-any MM-LLM di capacità a livello umano. Ciò permetterà di colmare il divario tra lo spazio delle caratteristiche delle diverse modalità ed assicurare una comprensione fluida della semantica degli altri input per eseguire l’apprendimento dell’allineamento per NExT-GPT.

La sintonizzazione delle istruzioni per il cambio di modalità (MosIT) supporta una comprensione e un ragionamento complessi tra modalità incrociate e consente una generazione di contenuti multimodali sofisticata. Hanno persino costruito un dataset di alta qualità che comprende una vasta gamma di input e output multimodali, offrendo la complessità e la variabilità necessarie per facilitare l’addestramento dei modelli linguistici multimodali per gestire diverse interazioni dell’utente e fornire risposte desiderate con precisione.

Infine, la loro ricerca mostra il potenziale dei modelli linguistici multimodali any-to-any nel colmare il divario tra diverse modalità e preparare la strada per sistemi di intelligenza artificiale più simili all’uomo in futuro.