Trasformazione dell’interazione AI LLaVAR si distingue nella comprensione visiva e basata su testo, segnando una nuova era nei modelli di istruzioni multimodali.

LLaVAR, un'interazione AI, si distingue per la sua capacità di comprendere sia le informazioni visive che quelle basate sul testo. Questo segna una nuova era nei modelli di istruzioni multimodali.

Unendo diverse attività in un’unica istruzione, l’ottimizzazione delle istruzioni migliora la generalizzazione verso nuovi compiti. Tale capacità di rispondere a domande aperte ha contribuito all’esplosione dei chatbot di recente, come ChatGPT 2. Gli encoder visivi come CLIP-ViT sono stati recentemente aggiunti agli agenti di conversazione come parte dei modelli di istruzioni visive ottimizzate, consentendo l’interazione uomo-agente basata su immagini. Tuttavia, hanno bisogno di aiuto nella comprensione del testo all’interno delle immagini, forse a causa della predominanza dei dati di addestramento di immagini naturali (ad esempio, Conceptual Captions e COCO). Tuttavia, la comprensione della lettura è essenziale per la percezione visiva quotidiana negli esseri umani. Fortunatamente, le tecniche di OCR consentono di riconoscere le parole dalle foto.

Il calcolo (con lunghezze di contesto più ampie) viene aumentato (ingenuamente) aggiungendo i testi riconosciuti all’input dei modelli di istruzioni visive ottimizzate senza utilizzare completamente la capacità di codifica degli encoder visivi. Per fare ciò, suggeriscono di raccogliere dati di seguito delle istruzioni che richiedono la comprensione delle parole all’interno delle immagini per migliorare il modello di istruzioni visive ottimizzato end-to-end. Unendo istruzioni fornite manualmente (come “Identifica qualsiasi testo visibile nell’immagine fornita.”) con i risultati dell’OCR, raccolgono specificamente prima 422K di dati di seguito delle istruzioni rumorosi utilizzando immagini ricche di testo.

Questi enormi dati rumorosi-allineati migliorano significativamente l’allineamento delle caratteristiche tra il decodificatore del linguaggio e le caratteristiche visive. Inoltre, chiedono a GPT-4 solo testo di produrre 16K conversazioni utilizzando i risultati dell’OCR e le didascalie delle immagini come esempi di alta qualità su come seguire le istruzioni. Ogni conversazione può contenere molti turni di domande e risposte. Per produrre istruzioni sofisticate in base all’input, questo approccio richiede che GPT-4 rimuova il rumore dai dati OCR e crei domande uniche (Figura 1). Integrano le fasi di preaddestramento e sintonizzazione finale di LLaVA utilizzando esempi rumorosi e di alta qualità per valutare l’efficacia dei dati ottenuti.

Figura 1 mostra come vengono raccolte statistiche accurate sul seguito delle istruzioni. | https://arxiv.org/pdf/2306.17107.pdf

Ricercatori del Georgia Tech, Adobe Research e Stanford University sviluppano LLaVAR, che sta per Large Language and Vision Assistant that Can Read. Per codificare meglio le caratteristiche testuali minute, sperimentano con l’aumento della risoluzione dell’input da 2242 a 3362 rispetto all’originale LLaVA. Secondo la tecnica di valutazione, empiricamente, forniscono i risultati su quattro dataset VQA basati sul testo insieme ai risultati della sintonizzazione finale di ScienceQA. Inoltre, utilizzano 50 immagini ricche di testo da LAION e 30 immagini naturali da COCO nella valutazione del seguito delle istruzioni basato su GPT-4. Inoltre, offrono un’analisi qualitativa per misurare capacità di seguire istruzioni più sofisticate (ad esempio, su manifesti, screenshot di siti web e tweet).

In conclusione, i loro contributi includono quanto segue:

• Raccolgono 16K di dati di seguito delle istruzioni di alta qualità e 422K di dati rumorosi. Entrambi sono stati dimostrati migliorare l’ottimizzazione delle istruzioni visive. La capacità migliorata consente al loro modello, LLaVAR, di fornire interazioni end-to-end basate su materiali online diversi, compresi testo e immagini, migliorando solo modestamente le prestazioni del modello su foto naturali.

• I dati di addestramento e valutazione, nonché i traguardi del modello, sono resi pubblicamente disponibili.

L’articolo Transforming AI Interaction: LLaVAR Outperforms in Visual and Text-Based Comprehension, Marking a New Era in Multimodal Instruction-Following Models è apparso per primo su MarkTechPost.