Ricercatori cinesi presentano Video-LLaVA un modello di base ampio e potente per immagini e linguaggio visivo

Ricercatori cinesi presentano Video-LLaVA un modello avanzato e potente per immagini e linguaggio visivo

Ricercatori dell’Università di Pechino, del Laboratorio Peng Cheng, della Scuola di Specializzazione di Shenzhen dell’Università di Pechino e dell’Università Sun Yat-sen presentano l’approccio Large Vision-Language Model (LVLM), Video-LLaVA, che unifica la rappresentazione visiva nello spazio delle caratteristiche linguistiche. A differenza dei metodi esistenti che codificano immagini e video separatamente, Video-LLaVA raggiunge un LVLM unificato affrontando i problemi di disallineamento durante la proiezione. Questo modello semplice ma robusto supera i punti di riferimento su nove set di dati di immagini, eccellendo nella risposta a domande su immagini su cinque set di dati e quattro strumenti.

Video-LLaVA integra immagini e video in uno spazio delle caratteristiche singolo, migliorando le interazioni multimodali. Supera Video-ChatGPT su vari set di dati di immagini ed eccelle nella risposta a domande su immagini. Nella comprensione dei video, Video-LLaVA supera costantemente Video-ChatGPT e supera lo stato dell’arte di Chat-UniVi su più set di dati video. Sfruttando le capacità di ragionamento di un LLM, Video-LLaVA viene addestrato utilizzando Vicuna-7B v1.5 ed encoder visivi derivati da LanguageBind e ViT-L14.

Affrontando le sfide di disallineamento negli approcci esistenti che codificano immagini e video separatamente, introduce Video-LLaVA, un modello unitario di visione-linguaggio. Questo modello allinea le rappresentazioni visive di immagini e video prima della proiezione, mitigando i problemi per i LLM nell’apprendimento di interazioni multimodali. Video-LLaVA supera LVLM avanzati e Video-ChatGPT su vari benchmark di immagini e video, mostrando una migliore performance nella comprensione e risposta alle istruzioni fornite dall’essere umano. L’approccio evidenzia i vantaggi dell’allineamento delle caratteristiche visive in uno spazio unitario prima della proiezione per un apprendimento migliorato delle interazioni multimodali.

Video-LLaVA allinea le rappresentazioni visive di immagini e video in uno spazio delle caratteristiche unitario prima della proiezione. Utilizza Vicuna-7B v1.5 come modello di linguaggio, con encoder visivi derivati da LanguageBind, inizializzati da ViT-L14. Il processo di addestramento prevede il ridimensionamento e il ritaglio delle immagini a 224×224. Utilizzando un sottoinsieme di 558K coppie immagine-testo LAION-CC-SBU da CC3M per l’addestramento preliminare. I set di dati istruzionali provengono da varie fonti, inclusi un set di dati di istruzioni immagine-testo di 665K da LLaVA v1.5 e un set di dati di istruzioni video-testo di 100K da Video-ChatGPT.

Video-LLaVA eccelle in nove benchmark di immagini, superando Video-ChatGPT su MSRVTT, MSVD, TGIF e ActivityNet rispettivamente del 5,8%, 9,9%, 18,6% e 10,1%. Si comporta su 89 benchmark di immagini, superando InstructBLIP-7B nella risposta a domande. Compete favorevolmente con LVLM più potenti, superando InstructBLIP-13B di 14,7 su VisWiz. Video-LLaVA migliora significativamente la risposta alle domande sui video su quattro set di dati, mostrando la sua capacità di comprendere e apprendere da immagini e video attraverso una rappresentazione visiva unificata.

In conclusione, Video-LLaVA è un modello di immagini-linguaggio eccezionalmente grande che affronta in modo efficace i problemi di disallineamento e ottiene migliori risultati su diversi benchmark di immagini. Il suo addestramento congiunto su immagini e video ne migliora la competenza, consentendogli di superare modelli esperti specificamente progettati per immagini o video. La notevole comprensione del modello dei concetti visivi unificati e l’eccellente performance nei benchmark di domande su immagini dimostrano l’efficacia del suo potente framework di addestramento visivo armonioso, evidenziandone le capacità.

Ulteriori ricerche potrebbero esplorare tecniche avanzate di allineamento prima della proiezione per migliorare i LVLM nelle interazioni multimodali. Dovrebbero essere indagate approcci alternativi per la tokenizzazione unificata di immagini e video al fine di affrontare le sfide di disallineamento. Valutare Video-LLaVA su benchmark e set di dati aggiuntivi consentirebbe di valutarne la generalizzabilità. Confronti con modelli di linguaggio più grandi potrebbero chiarire la scalabilità e i possibili miglioramenti. Migliorare l’efficienza computazionale di Video-LLaVA e indagare l’impatto dell’addestramento congiunto sulle prestazioni dei LVLM sono possibili percorsi di ulteriore esplorazione.