Ricercatori dell’Università di Columbia e Apple presentano Ferret un innovativo modello linguistico multimodale per la comprensione e descrizione avanzata delle immagini

Ricercatori dell'Università di Columbia e Apple presentano Ferret un innovativo modello linguistico multimodale per la comprensione e descrizione avanzata delle immagini

Come facilitare la conoscenza spaziale dei modelli è una questione di ricerca fondamentale nell’apprendimento visione-linguaggio. Questo dilemma porta a due capacità richieste: il riferimento e l’ancoraggio. Mentre l’ancoraggio richiede che il modello localizzi la regione in base alla descrizione semantica fornita, il riferimento richiede che il modello comprenda pienamente la semantica delle regioni specifiche fornite. In sostanza, allineare le informazioni geografiche e la semantica è la conoscenza necessaria sia per il riferimento che per l’ancoraggio. Nonostante questo, il riferimento e l’ancoraggio sono solitamente insegnati separatamente nei testi attuali. Gli esseri umani, d’altra parte, possono combinare senza problemi le capacità di riferimento/ancoraggio con la discussione quotidiana e il ragionamento, e possono imparare da un’attività e generalizzare la conoscenza condivisa all’altro lavoro senza difficoltà.

In questa ricerca, vengono indagate tre questioni chiave alla luce della disparità sopra menzionata. (i) Come potrebbero il riferimento e l’ancoraggio essere combinati in un unico framework e come si completeranno a vicenda? (ii) Come si possono rappresentare le molte regioni che le persone spesso usano per riferirsi a cose, come punti, caselle, scarabocchi e forme libere? (iii) Come possono il riferimento e l’ancoraggio, essenziali per le applicazioni pratiche, diventare un vocabolario aperto, orientato all’insegnamento e robusto? I ricercatori dell’Università di Columbia e di Apple AI/ML presentano Ferret, un nuovo modello linguistico multimodale di grandi dimensioni per il riferimento e l’ancoraggio, per affrontare queste tre questioni. Hanno prima scelto MLLM come base di Ferret a causa della sua forte capacità di comprensione globale visione-linguaggio. Come mostrato nella Figura 1, Ferret codifica inizialmente le coordinate delle aree in forma numerica in linguaggio semplice per unificare il riferimento e l’ancoraggio.

Figura 3: Una visione generale dell’architettura per il modello Ferret suggerito. La rappresentazione dei modelli di regione ibrida e il campione visivo consapevole dello spazio sono mostrati a sinistra. L’architettura complessiva del modello (a destra). L’encoder dell’immagine è l’unico parametro che non può essere addestrato.

Tuttavia, è impraticabile rappresentare una varietà di forme regionali, come tratti, scarabocchi o poligoni complessi, con un singolo punto o una casella di coordinate. Queste forme sono necessarie per un’interazione umano-modello più accurata e completa. Per affrontare questo problema, suggeriscono anche un campione visivo che tiene conto delle caratteristiche ottiche delle aree in qualsiasi forma, tenendo conto della sparsità variabile di tali forme. Le aree visuali in input sono quindi rappresentate in Ferret utilizzando una rappresentazione ibrida della regione composta da coordinate discrete e caratteristiche visive continue. Con le tecniche sopra descritte, Ferret può gestire input che combinano testo in forma libera e aree di riferimento, e può ancorare gli oggetti specificati nel suo output creando automaticamente le coordinate per ciascun oggetto ancorabile e testo.

Per quanto ne sappiano, Ferret è la prima applicazione che gestisce input da MLLM con regioni a forma libera. Raccolgono GRIT, un dataset di messa a punto delle istruzioni di ancoraggio-e-riferimento di 1,1 milioni di esempi, per creare le capacità di riferimento e ancoraggio in Ferret in un vocabolario aperto, nel seguire istruzioni e nella resilienza. GRIT contiene diverse dimensioni di conoscenza spaziale, inclusa la descrizione delle regioni, le connessioni, gli oggetti e il ragionamento complicato. Contiene dati che combinano localizzazione e testo sia in input che in output, nonché localizzazione nel testo (riferimento) e testo nella localizzazione (ancoraggio). Con l’aiuto di modelli appositamente progettati, la maggior parte del dataset viene trasformata dai compiti attuali di visione (-linguaggio) come l’identificazione degli oggetti e l’analisi delle frasi in compiti di seguire istruzioni.

Per aiutare nell’addestramento di un generalista che segue istruzioni di riferimento e ancoraggio a vocabolario aperto, sono stati raccolti anche 34.000 esempi di chat di messa a punto delle istruzioni di riferimento e ancoraggio utilizzando ChatGPT/GPT-4. Effettuano anche un’estrattiva di dati negativi consapevole dello spazio, che migliora la robustezza del modello. Ferret possiede una grande consapevolezza dello spazio a vocabolario aperto e capacità di localizzazione. Si comporta meglio quando viene confrontato con attività tradizionali di riferimento e ancoraggio. Inoltre, ritengono che le capacità di riferimento e ancoraggio dovrebbero essere incorporate nelle discussioni umane quotidiane, ad esempio quando le persone si riferiscono a qualcosa di sconosciuto e ne chiedono la funzione. Per valutare questa nuova abilità, presentano Ferret-Bench, che comprende tre nuovi tipi di compiti: Descrizione di Riferimento, Ragionamento di Riferimento e Ancoraggio nella Conversazione. Confrontano Ferret con i migliori MLLM già in uso e scoprono che può superarli in media del 20,4%. Ferret ha anche la notevole capacità di ridurre le allucinazioni degli oggetti.

Hanno fatto complessivamente tre diverse contribuzioni. (i) Suggeriscono Ferret, che consente un riferimento e grounding ad alta risoluzione e open-vocabulary in MLLM. Ferret utilizza una rappresentazione ibrida di regione dotata di un campionatore visuale unico cosciente dello spazio. (ii) Creano GRIT, un ampio dataset di addestramento per l’ottimizzazione delle istruzioni di terreno e riferimento del modello. Include anche esempi negativi spaziali aggiuntivi per rafforzare la resistenza del modello. Per valutare compiti che richiedono contemporaneamente riferimento/grounding, semantica, conoscenza e ragionamento, creano il Ferret-Bench (iii). Il loro modello si comporta meglio degli altri in varie attività e presenta meno allucinazioni oggettuali.