Nuovo modello di linguaggio multimodale KOSMOS-2 introdotto dai ricercatori di Microsoft
Nuovo modello multimodale KOSMOS-2 introdotto da Microsoft
In un nuovo articolo, i ricercatori di Microsoft hanno introdotto KOSMOS-2, un nuovo modello di linguaggio multimodale di grandi dimensioni che è stato in grado di dimostrare successo come interfaccia a uso generale. KOSMOS-2 mira a rivoluzionare l’interazione tra gli esseri umani e l’IA nel linguaggio, nella visione e nelle attività di visione-linguaggio incorporando capacità di grounding.
I modelli di linguaggio multimodali di grandi dimensioni o MLLM per breve, si sono affermati come un’interfaccia versatile. Ciò è dovuto alla loro notevole performance in varie attività. La capacità di questi modelli di comprendere e generare risposte utilizzando diverse modalità come testo, immagini e audio li rende preziosi. KOSMOS-2 porta questa capacità a nuove vette consentendo il grounding di modelli di linguaggio multimodali di grandi dimensioni.
Le capacità di grounding sono particolarmente cruciali nelle attività di visione-linguaggio, in quanto offrono un’interfaccia umano-IA più pratica ed efficace. KOSMOS-2 può interpretare specifiche regioni nelle immagini in base alle loro coordinate geografiche, consentendo agli utenti di indicare senza sforzo oggetti o regioni di interesse anziché fare affidamento su lunghe descrizioni testuali.
- Nuova politica sull’IA delineata dal CEO dei Grammy
- Alibaba ha lanciato un nuovo strumento di intelligenza artificiale per generare immagini a partire da un input di testo
- Il capo di Microsoft non è preoccupato che l’IA prenderà il controllo
Una delle caratteristiche notevoli di KOSMOS-2 è la sua capacità di fornire risposte visive, come bounding boxes. Questa capacità aiuta enormemente le attività di visione-linguaggio eliminando l’ambiguità di coreferenza e offrendo riferimenti visivi precisi e chiari. Collegando le frasi sostantive e i termini di riferimento a specifiche aree dell’immagine, KOSMOS-2 genera risposte più accurate, informative e complete.
Per dotare KOSMOS-2 di capacità di grounding, il team di Microsoft Research ha costruito un dataset su larga scala di associazioni immagine-testo con grounding. Integrando questo dataset con i corpora multimodali esistenti in KOSMOS-1, il modello è stato addestrato a utilizzare appieno il suo potenziale di grounding. Il processo ha coinvolto l’estrazione e il collegamento di frammenti di testo rilevanti, come frasi sostantive ed espressioni di riferimento, a posizioni spaziali rappresentate da bounding boxes.
Queste coordinate spaziali sono state quindi tradotte in token di posizione, creando un formato dati che funge da “iperlink” che collega gli elementi dell’immagine alla didascalia. I risultati sperimentali dimostrano che KOSMOS-2 eccelle nelle attività di grounding come grounding di frasi e comprensione di espressioni di riferimento.
Infine, secondo l’articolo, KOSMOS-2 si comporta in modo competitivo nelle attività di linguaggio e visione-linguaggio valutate in KOSMOS-1. L’inclusione delle capacità di grounding apre una serie di ulteriori applicazioni downstream per KOSMOS-2, tra cui la generazione di didascalie per immagini e la risposta a domande visive basate sul grounding.
Se sei interessato, puoi esplorare le capacità di KOSMOS-2 attraverso una demo online disponibile su GitHub.
Nota dell’Editore: Sei pronto per scoprire le ultime novità dell’IA generativa? Unisciti a noi per il summit Generative AI di un giorno. Vai oltre l’hype e approfondisci questa tecnologia all’avanguardia. Registrati ora gratuitamente e sblocca il potere dell’IA generativa.