I Ricercatori di Microsoft Presentano KOSMOS-2 Un Modello di Lingua Multimodale di Grandi Dimensioni Che Può Collegarsi al Mondo Visivo

Microsoft Researchers Present KOSMOS-2, a Large-Scale Multimodal Language Model That Can Connect to the Visual World.

I modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno dimostrato successo come interfaccia a uso generale in diverse attività, inclusi compiti di linguaggio, visione e linguaggio-visione. In condizioni di zero-shot e few-shot, gli MLLM possono percepire modalità generiche come testi, immagini e audio e produrre risposte utilizzando testi liberi. In questo studio, abilitano i grandi modelli di linguaggio multimodali a fondarsi. Per le attività di visione-linguaggio, la capacità di fondazione può offrire un’interfaccia uomo-AI più pratica ed efficace. Il modello può interpretare quella regione dell’immagine con le sue coordinate geografiche, consentendo all’utente di indicare direttamente l’oggetto o la regione nell’immagine anziché inserire lunghe descrizioni testuali per riferirsi ad esso.

Figura 1: Sono mostrati alcuni campioni selezionati prodotti utilizzando KOSMOS-2. Alcuni esempi sono la fondazione visiva, la risposta alle domande fondate, il riferimento multimodale utilizzando i bounding box, la didascalia fondata sull’immagine e la fondazione visiva.

La funzione di fondazione del modello permette anche di fornire risposte visive (ovvero bounding box), che possono aiutare altre attività di visione-linguaggio come la comprensione delle espressioni di riferimento. Rispetto alle risposte basate solo sul testo, le risposte visive sono più precise e chiariscono l’ambiguità della coreferenza. La capacità di fondazione della risposta in forma di testo libero può collegare le frasi nominali e i termini di riferimento alle aree dell’immagine per produrre risposte più accurate, informative e complete. I ricercatori di Microsoft Research presentano KOSMOS-2, un grande modello di linguaggio multimodale costruito su KOSMOS-1 con capacità di fondazione. Il compito di previsione della parola successiva viene utilizzato per addestrare il modello di linguaggio causale KOSMOS-2 basato su Transformer.

Costruiscono un dataset su larga scala di abbinamenti immagine-testo fondate e lo integrano con i corpora multimodali in KOSMOS-1 per addestrare il modello a utilizzare appieno il potenziale di fondazione. Un sottoinsieme di abbinamenti immagine-testo da LAION-2B e COYO-700M costituisce la base per i coppie immagine-testo fondate. Forniscono un flusso di lavoro per estrarre e collegare le porzioni di testo dalla didascalia, come frasi nominali ed espressioni di riferimento, alle posizioni spaziali (come i bounding box) degli oggetti o delle regioni corrispondenti nell’immagine. Traducono le coordinate geografiche dei bounding box in una stringa di token di posizione, che vengono successivamente aggiunti dopo le porzioni di testo corrispondenti. Il formato dei dati funge da “collegamento ipertestuale” per collegare gli elementi dell’immagine alla didascalia.

I risultati degli esperimenti mostrano che KOSMOS-2 non solo si comporta egregiamente nei compiti di fondazione (fondazione di frasi e comprensione delle espressioni di riferimento) e nei compiti di riferimento (generazione di espressioni di riferimento), ma si comporta anche in modo competitivo nei compiti di linguaggio e visione-linguaggio valutati in KOSMOS-1. La Figura 1 illustra come l’inclusione della funzione di fondazione permetta di utilizzare KOSMOS-2 per ulteriori compiti successivi, come la didascalia fondata sull’immagine e la risposta alle domande fondate sull’immagine. È disponibile una demo online su GitHub.