Ricercatori di Datategy e Math & AI Institute offrono una prospettiva per il futuro della multimodalità dei grandi modelli di linguaggio

Ricercatori di Datategy e Math & AI Institute propongono una visione per il futuro della multimodalità dei grandi modelli linguistici

Ricercatori di Datategy SAS in Francia e Math & AI Institute in Turchia propongono una possibile direzione per le architetture multi-modalità recentemente emergenti. L’idea centrale del loro studio è che la formulazione di Named Entity Recognition (NER) ben studiata può essere incorporata in un contesto di Large Language Model (LLM) multi-modalità.

Architetture multimodale come LLaVA, Kosmos o AnyMAL hanno guadagnato popolarità di recente e hanno dimostrato le loro capacità nella pratica. Questi modelli tokenizzano dati da modalità diverse dal testo, come immagini, e utilizzano encoder specifici di modalità esterne per inserirli in uno spazio linguistico comune. Ciò consente alle architetture di fornire un mezzo per istruire e accordare i dati multi-modalità mischiati con il testo in modo intercalato.

Gli autori di questo articolo propongono che questa preferenza architettonica generica possa essere estesa in un contesto molto più ambizioso in futuro, che chiamano “era omni-modalità”. Concetti di “entità”, che sono in qualche modo collegati al concetto di NER, possono essere immaginati come modalità per questi tipi di architetture.

Ad esempio, gli attuali LLM hanno difficoltà a dedurre il ragionamento algebrico completo. Sebbene siano in corso ricerche per sviluppare modelli specifici “friendly” per la matematica o utilizzare strumenti esterni, un particolare orizzonte per questo problema potrebbe essere definire i valori quantitativi come modalità in questo framework. Un altro esempio potrebbe essere le entità di data e ora implicite ed esplicite che possono essere elaborate da un encoder di modalità specifico per il tempo.

Anche la comprensione geospaziale è un grave problema per i LLM, che sono lontani dall’essere considerati “consapevoli geospazialmente”. Inoltre, è necessario elaborare coordinate globali numeriche in modo accurato, dove i concetti di prossimità e adiacenza dovrebbero essere riflessi in modo preciso nello spazio di incorporazione linguistica. Pertanto, l’incorporazione di luoghi come modalità geospaziale speciale potrebbe anche fornire una soluzione a questo problema con un encoder appositamente progettato e un addestramento congiunto. Oltre a questi esempi, le prime entità potenziali che potrebbero essere incorporate come modalità che vengono in mente sono persone, istituzioni, ecc.

Gli autori sostengono che questo tipo di approccio promette di risolvere la scalabilità della conoscenza parametrica/non parametrica e la limitazione della lunghezza del contesto, poiché la complessità e l’informazione possono essere distribuite a numerosi encoder di modalità. Ciò potrebbe anche risolvere i problemi di inserimento delle informazioni aggiornate tramite le modalità. I ricercatori forniscono solo i confini di un tale framework potenziale e discutono le promesse e le sfide dello sviluppo di un modello di linguaggio guidato dall’entità.