I ricercatori del MIT hanno creato un nuovo dataset sintetico annotato di immagini che rappresentano una vasta gamma di scenari per aiutare i modelli di apprendimento automatico a comprendere i concetti in una scena.

I ricercatori del MIT hanno creato un nuovo dataset sintetico di immagini per aiutare i modelli di apprendimento automatico a comprendere i concetti in una scena.

I modelli di Visione e linguaggio pre-addestrati su larga scala hanno dimostrato prestazioni notevoli in numerose applicazioni, consentendo la sostituzione di un insieme fisso di classi supportate con ragionamento del vocabolario aperto senza zero-shot su query in linguaggio naturale (quasi arbitrarie). Tuttavia, recenti ricerche hanno rivelato un difetto fondamentale in questi modelli. Ad esempio, la loro incapacità di comprendere i concetti di linguaggio visivo (VLC) che vanno “oltre i sostantivi”, come il significato di parole non oggetto (ad esempio, attributi, azioni, relazioni, stati, ecc.) o la loro difficoltà nel ragionamento compositivo, come la comprensione del significato dell’ordine delle parole in una frase.

I modelli di visione e linguaggio, potenti algoritmi di apprendimento automatico che imparano ad abbinare il testo alle immagini, hanno dimostrato risultati notevoli quando richiesti di generare didascalie o riepiloghi video. Sebbene questi modelli eccellano nel distinguere gli oggetti, spesso necessitano di aiuto per comprendere concetti come gli attributi delle cose o la disposizione degli oggetti in una scena. Ad esempio, un modello di visione e linguaggio potrebbe percepire la tazza e il tavolo in un’immagine ma non riuscire a comprendere che la tazza è sopra il tavolo.

Ricercatori del MIT hanno dimostrato una nuova tecnica che utilizza dati generati al computer per aiutare i modelli di visione e linguaggio a superare questa lacuna. In particolare, propongono di potenziare gli aspetti di VLC e composizione dei dati visivi e testuali generati e quindi utilizzare questi dati per ottimizzare ulteriormente i modelli di VL insegnando loro a prestare maggiore attenzione a queste caratteristiche. Inoltre, oltre ad essere essenzialmente gratuita e di scalabilità infinita, i dati sintetici possono anche essere privi delle preoccupazioni sulla privacy che accompagnano sempre i dati reali. La creazione di dati sintetici che possono essere utilizzati efficacemente per migliorare gli aspetti di VLC e composizione dei modelli VL pre-addestrati su grandi quantità di dati reali presenta sfide tecniche aggiuntive. A differenza della maggior parte dei lavori precedenti sulla generazione di dati visivi sintetici, devono sviluppare immagini e testi che descrivano gli elementi compositivi di una scena. Inoltre, generano video sintetici che utilizzano una vera simulazione fisica 3D, come ambienti 3D diversi e oggetti 3D diversi, movimenti umani e azioni aggiuntive, interazione con oggetti e angolazioni della telecamera varie.

Lavori precedenti hanno utilizzato risorse di movimento per generare dati sintetici, ma i dati visivi non erano accompagnati da didascalie testuali e dovevano essere progettati tenendo conto della composizione. I ricercatori contribuiscono a Synthetic Visual Concepts (SyViC), un ampio dataset sintetico VL generato su scala di milioni con didascalie testuali ricche facilmente estendibili tramite il codice di sintesi dei dati e tutti i dati sintetici su scala di milioni generati in precedenza.

Contributi

  • I ricercatori contribuiscono con SyViC, un dataset sintetico su scala di milioni con annotazioni testuali ricche progettate per migliorare la comprensione di VLC e il ragionamento compositivo nei modelli VL, nonché la metodologia e il codice di generazione 2 per la sua sintesi e potenziale estensibilità.
  • Un efficace raffinamento generale dei modelli VL che sfrutta i dati di SyViC per migliorare le caratteristiche di modelli VL pre-addestrati senza compromettere la loro performance zero-shot.
  • I risultati sperimentali e uno studio approfondito delle ablation dimostrano un miglioramento significativo (oltre il 10% in alcuni casi) nella comprensione di VLC e nel ragionamento compositivo, misurato sui benchmark più recenti VL-Checklist, ARO e Winoground e convalidato sul modello CLIP più popolare e le sue derivate (ad esempio, il più recente CyCLIP).

Risultati

Sono stati generati varianti di tutti i modelli utilizzando il metodo proposto e i dati sintetici di SyViC. Prima del raffinamento su SyViC, ogni modello è stato confrontato con il rispettivo modello di origine addestrato su grandi quantità di dati reali. Secondo le conclusioni dei ricercatori, sia i dati sintetici di SyViC che la ricetta di raffinamento proposta mostrano miglioramenti significativi rispetto alle rispettive basi di partenza. Inoltre, i ricercatori illustrano i miglioramenti individuali delle metriche VLC acquisite per CLIP nei benchmark VL-Checklist e ARO, mostrando rispettivamente miglioramenti assoluti fino al 9,1% e al 12,6%. Ciò dimostra l’efficienza e il potenziale del metodo e dei dati sintetici di SyViC per migliorare la comprensione di VLC e il ragionamento compositivo nei modelli VL.

Prova qui https://synthetic-vic.github.io/

Limitazioni

Pur ottenendo risultati molto promettenti su tre diversi benchmark, ci sono limitazioni al lavoro dei ricercatori. Ad esempio, il simulatore grafico ha un modello semplificato di illuminazione, rumore del sensore e funzioni di riflessione rispetto al mondo reale, il che potrebbe influire sulla robustezza della costanza del colore. Probabilmente sono necessarie tecniche di adattamento al dominio e rendering più sofisticate per migliorare ulteriormente i risultati. Inoltre, un’analisi più approfondita delle leggi di scala per i dati sintetici sarebbe un ottimo modo per realizzare appieno il potenziale di questo lavoro.

Per riassumere

I grandi modelli di visione e linguaggio hanno dettato lo status quo nella visione artificiale e nella percezione multimodale, raggiungendo risultati all’avanguardia in diversi benchmark difficili. Tuttavia, i modelli esistenti hanno bisogno di aiuto nella ragionamento compositivo e nella comprensione di concetti al di là dei sostantivi oggetto, come attributi e relazioni. Questa è la prima indagine su come i dati sintetici possano mitigare queste carenze. I ricercatori del MIT hanno proposto un’elaborazione di dati per creare un dataset di immagini sintetiche su larga scala, accompagnate da didascalie, e una strategia efficiente di messa a punto con un’analisi completa per migliorare le capacità di comprensione compositiva e concettuale dei modelli multimodali senza compromettere le loro prestazioni di classificazione senza addestramento.