Incontra Otter un modello AI all’avanguardia che sfrutta un dataset su larga scala chiamato MIMIC-IT per raggiungere prestazioni state-of-the-art nei benchmark di percezione e ragionamento.

Meet Otter, a cutting-edge AI model that leverages a large-scale dataset called MIMIC-IT to achieve state-of-the-art performance in perception and reasoning benchmarks.

I modelli multifaccettati si sforzano di integrare dati provenienti da fonti diverse, tra cui il linguaggio scritto, le immagini e i video, per eseguire varie funzioni. Questi modelli hanno dimostrato un considerevole potenziale nel comprendere e generare contenuti che fondono dati visivi e testuali.

Un componente cruciale dei modelli multifaccettati è la messa a punto delle istruzioni, che comporta la messa a punto del modello basata su direttive di linguaggio naturale. Questo consente al modello di comprendere meglio le intenzioni dell’utente e di generare risposte precise e pertinenti. La messa a punto delle istruzioni è stata efficacemente impiegata in grandi modelli di linguaggio come GPT-2 e GPT-3, consentendo loro di seguire le istruzioni per realizzare compiti reali.

Le approccio esistenti nei modelli multimodali possono essere categorizzati in prospettive di progettazione di sistema e di modelli addestrabili end-to-end. La prospettiva di progettazione del sistema connette diversi modelli utilizzando uno scheduler di invio come ChatGPT ma manca di flessibilità di addestramento e può essere costosa. La prospettiva dei modelli addestrabili end-to-end integra i modelli di altre modalità ma può avere costi di addestramento elevati o flessibilità limitata. I precedenti set di dati di messa a punto delle istruzioni nei modelli multimodali mancano di esempi in contesto. Di recente, un nuovo approccio proposto da un team di ricerca di Singapore introduce la messa a punto delle istruzioni in contesto e costruisce set di dati con esempi contestuali per colmare questa lacuna.

Le principali contribuzioni di questo lavoro includono:

  • L’introduzione del set di dati MIMIC-IT per la messa a punto delle istruzioni nei modelli multimodali.
  • Lo sviluppo del modello Otter con miglioramenti nelle capacità di seguimento delle istruzioni e di apprendimento in contesto.
  • L’ottimizzazione dell’implementazione di OpenFlamingo per una maggiore accessibilità.

Queste contribuzioni forniscono ai ricercatori un set di dati prezioso, un modello migliorato e un framework più user-friendly per avanzare nella ricerca multimodale.

In concreto, gli autori introducono il set di dati MIMIC-IT, che mira a migliorare le capacità di comprensione delle istruzioni di OpenFlamingo preservando la sua capacità di apprendimento in contesto. Il set di dati consiste in coppie immagine-testo con relazioni contestuali, mentre OpenFlamingo mira a generare il testo per una coppia immagine-testo interrogata basandosi su esempi in contesto. Il set di dati MIMIC-IT è stato introdotto per migliorare la comprensione delle istruzioni di OpenFlamingo mantenendo il suo apprendimento in contesto. Include triplette immagine-istruzione-risposta e contesto corrispondente. OpenFlamingo è un framework che consente ai modelli multimodali di generare testo basato su immagini ed esempi contestuali.

Durante la formazione, il modello Otter segue il paradigma di OpenFlamingo, congelando gli encoder preaddestrati e mettendo a punto i moduli specifici. I dati di addestramento seguono un formato specifico con immagine, istruzione dell’utente, risposte generate da “GPT” e un token [endofchunk]. Il modello viene addestrato utilizzando la perdita di entropia incrociata, con il token Please view this post in your web browser to complete the quiz. che separa le soluzioni per gli obiettivi di previsione.

Gli autori hanno integrato Otter in Hugging Face Transformers, consentendo un facile riutilizzo e integrazione nelle pipeline dei ricercatori. Hanno ottimizzato il modello per la formazione su GPU 4×RTX-3090 e supportato Fully Sharded Data Parallel (FSDP) e DeepSpeed per un’efficienza migliorata. Offrono anche uno script per convertire il checkpoint originale di OpenFlamingo nel formato Hugging Face Model. Riguardo alle dimostrazioni, Otter si comporta meglio nel seguire le istruzioni dell’utente e mostra capacità di ragionamento avanzate rispetto a OpenFlamingo. Dimostra la capacità di gestire scenari complessi e di applicare la conoscenza contestuale. Otter supporta anche l’apprendimento multimodale in contesto e si comporta bene nei compiti di domanda-risposta visuale, sfruttando le informazioni dalle immagini e dagli esempi contestuali per fornire risposte complete e precise.

In conclusione, questa ricerca contribuisce ai modelli multimodali introducendo il set di dati MIMIC-IT, migliorando il modello Otter con miglioramenti nelle capacità di seguire le istruzioni e di apprendimento in contesto e ottimizzando l’implementazione di OpenFlamingo per una maggiore accessibilità. L’integrazione di Otter in Hugging Face Transformers consente ai ricercatori di sfruttare il modello con uno sforzo minimo. Le capacità dimostrate di Otter nel seguire le istruzioni dell’utente, nel ragionamento in scenari complessi e nell’apprendimento multimodale in contesto mostrano i progressi nella comprensione e generazione multimodale. Queste contribuzioni forniscono risorse e informazioni preziose per la ricerca e lo sviluppo futuri nei modelli multimodali.