Questa ricerca introduc

Questa ricerca presenta nuove tendenze nel mondo della bellezza e della moda

Grandi Modelli Multimodali (LMM), spinti dalla scia dell’IA generativa, sono diventati cruciali, colmando il divario tra il linguaggio e i compiti visivi. LLaVa, miniGPT4, Otter, InstructBLIP, LLaMA-Adapter v2 e mPLUGOWL sono esempi di versioni iniziali che mostrano risposte testuali efficienti in base alle foto di input. Nonostante la loro sofisticatezza, questi modelli devono basare le loro decisioni sull’ambiente visivo. Applicazioni avanzate come l’alterazione del contenuto localizzato, gli agenti corporei interattivi e la comprensione visiva profonda richiedono questo ancoraggio. Recenti studi hanno iniziato ad analizzare le zone definite dall’utente descritte utilizzando bounding box nei modelli per superare questo vincolo.

Sebbene la generazione di risposte di testo ancorate sia stata oggetto di recenti sforzi, non offrono ancoraggi precisi a livello di pixel. Inoltre, sono stati fatti tentativi per ancorare descrizioni testuali in fotografie naturali nella letteratura di segmentazione pertinente. Tuttavia, sono in grado di ancorare solo un singolo elemento. Non possono mantenere conversazioni reali e coerenti, limitando la loro utilità in attività interattive che richiedono una comprensione approfondita del materiale scritto e visivo. Presentiamo Grounding LMM (GLaMM), che offre contemporaneamente una consapevolezza regionale approfondita, ancoraggi a livello di pixel e capacità di conversazione attraverso una strategia di addestramento end-to-end (Fig. 1) per superare queste carenze dei lavori precedenti.

Figura 1: Generazione di Conversazioni Ancorate basate su GLaMM

È possibile produrre risposte di testo radicate al livello di pixel nell’immagine di input utilizzando il modello di conversazione multimodale. Oltre alle attribuzioni degli oggetti (casa bianca, tetto rosso, prato ben curato) e alle relazioni tra gli oggetti (erba che si estende al marciapiede, cielo sopra l’edificio), i livelli di granularità diversi sono rappresentati negli ancoraggi di output, come cose (edificio, albero), oggetti (erba, cielo, marciapiede) e parti degli oggetti (tetto come sottoparte dell’edificio).

Offriamo il lavoro unico di Generazione di Conversazioni Ancorate (GCG) per affrontare la mancanza di standard per le conversazioni visivamente ancorate. Il lavoro di GCG mira a generare maschere di segmentazione degli oggetti interpolate con risposte di testo naturali. Questo problema complesso combina vari compiti di visione artificiale solitamente trattati separatamente, come l’ancoraggio delle frasi, la didascalia delle immagini e dei livelli di regione, la segmentazione delle espressioni di riferimento e le interazioni tra visione e linguaggio. Di conseguenza, il modello combinato e l’insieme di dati di pretraining suggerito possono essere utilizzati con successo per diversi compiti secondari (come QA in stile conversazione, didascalia di livello di regione, didascalia di immagine e segmentazione delle espressioni).

Ricercatori provenienti dall’Università di Intelligenza Artificiale Mohamed bin Zayed, dall’Università Nazionale Australiana, dall’Università Aalto, dalla Carnegie Mellon University, dall’Università della California – Merced, dall’Università di Linköping e dalla Ricerca di Google introducono GLaMM, il primo modello creato appositamente per questo difficile compito. A differenza dei precedenti sforzi, GLaMM offre un’esperienza utente variegata lavorando con suggerimenti testuali e visivi e fornendo risultati ancorati visivamente. Il tedioso compito di raccogliere ampie annotazioni per le aree delle immagini è necessario per una comprensione dettagliata a livello di regione. Suggeriamo un flusso di lavoro automatizzato per annotare l’ampio insieme di dati di Ancoraggio di tutto (GranD) per ridurre il processo di etichettatura manuale intensivo. GranD utilizza una pipeline computerizzata con determinati processi di verifica e contiene 7,5 milioni di idee distinte ancorate in 810 milioni di aree, ciascuna con una maschera di segmentazione.

Il dataset annota le foto SAM utilizzando un metodo gerarchico multilivello, utilizzando modelli all’avanguardia di visione e linguaggio per migliorare la qualità dell’annotazione. GranD ridefinisce la completezza con le sue 11 milioni di foto e le sue caratteristiche, come 33 milioni di didascalie ancorate e 84 milioni di termini di riferimento. Offriamo il primo dataset di alta qualità per conversazioni ancorate e il dataset di GCG generato automaticamente. Questo dataset è stato creato riutilizzando i dataset precedentemente disponibili annotati manualmente per il GCG utilizzando l’apprendimento contestuale di GPT-4. Designiamo l’ampio insieme di dati generato automaticamente come GranDp e il dataset di alta qualità come GranDf, indicando che è adatto per il fine-tuning. GLaMM viene addestrato nelle fasi di pretraining e fine-tuning utilizzando GranDf e GranDp.

In conclusione, la loro ricerca ha tre contributi principali: 

• Introduzione al Modello Multimodale di Base (GLaMM): Questo è un modello unico nel suo genere in grado di fornire risposte in linguaggio naturale che sono combinati in modo fluido con maschere di segmentazione degli oggetti. A differenza dei modelli attuali, GLaMM supporta indizi visivi opzionali e testuali, consentendo un maggior coinvolgimento dell’utente multimodale. 

• Nuovo compito e criteri di valutazione: Riconoscendo l’assenza di standard consolidati per i dialoghi visivamente applicati, hanno proposto un nuovo compito chiamato Generazione di Conversazioni Grounded (GCG). Inoltre, colmano una grande lacuna nella letteratura introducendo un processo di valutazione estensivo per valutare le prestazioni dei modelli in questo scenario unico che integra diverse attività separate. 

• Dataset di Grounding-anything (GranD): Sviluppano GranD, un dataset massicciamente annotato per aiutare nell’addestramento e nella valutazione dei modelli. È stato creato utilizzando un pipeline di annotazione automatica e standard di verifica e contiene 7,5 milioni di idee distinte basate su 810 milioni di posizioni. Inoltre, riadattano dataset open-source esistenti per creare GranDf, un dataset di alta qualità creato specificamente per il fine-tuning del compito GCG.