Svolta nell’intersezione di visione e linguaggio presentazione del progetto All-Seeing

Svolta progetto All-Seeing nell'intersezione di visione e linguaggio

Alimentando la rapida ascesa dei chatbot di intelligenza artificiale, gli LLM sono il discorso del momento. Mostrano capacità sbalorditive nelle funzioni di elaborazione del linguaggio naturale personalizzate per l’utente, ma sembrano mancare della capacità di comprendere il mondo visivo. Per colmare il divario tra il mondo della visione e del linguaggio, i ricercatori hanno presentato il progetto All-Seeing (AS).

Il progetto AS è per il riconoscimento e la comprensione visiva panottica di un mondo aperto, guidato dall’obiettivo di creare un sistema di visione che imiti la cognizione umana. Il termine “panottico” si riferisce a includere tutto ciò che è visibile in una sola vista.

Il progetto AS è composto da:

  • Il dataset All-Seeing 1B (AS-1B) copre una vasta gamma di 3,5 milioni di concetti comuni e rari nel mondo reale e ha 132,2 miliardi di token che descrivono i concetti e i loro attributi.
  • Il modello All-Seeing (ASM) è un modello fondamentale unificato di immagini e testo basato sulla posizione. Il modello è composto da due componenti chiave: un tokenizzatore di immagini basato sulla posizione e un decodificatore basato su LLM.

Il dataset comprende oltre 1 miliardo di annotazioni di regioni in vari formati, come tag semantici, posizioni, coppie domanda-risposta e didascalie. Rispetto ai precedenti dataset di riconoscimento visivo come ImageNet e COCO, ai dataset di comprensione visiva come Visual Genome e Laion-5B, il dataset AS-1B si distingue per la sua ricca e diversificata annotazione delle posizioni a livello di istanza e per i concetti e le descrizioni dettagliate degli oggetti corrispondenti.

L’architettura del modello AS è composta da un framework unificato di diversi livelli. Supporta attività di contrasto e generazione di immagini e testo sia a livello di immagine che a livello di regione. Sfruttando LLM pre-addestrati e modelli di visione potenti (VFMs), il modello dimostra una promettente performance in compiti discriminativi come il recupero di immagini e testo e la classificazione zero, nonché in compiti generativi come il question answering visuale (VQA), il ragionamento visuale, la generazione di didascalie di immagini, la generazione di didascalie/risposte di regioni VQA, ecc. Inoltre, i ricercatori sostengono di vedere un potenziale nei compiti di grounding come il grounding di frasi e la comprensione di espressioni riferite con l’ausilio di un rilevatore privo di classe.

Il Modello All-Seeing (ASM) è composto da tre design chiave:

  1. Un tokenizzatore di immagini basato sulla posizione estrae le caratteristiche dall’immagine e dai livelli di regione in base all’immagine di input e al bounding box, rispettivamente.
  2. Un prompt di attività addestrabile è incorporato all’inizio dei token di visione e testo per guidare il modello nel distinguere tra compiti discriminativi e generativi.
  3. Viene utilizzato un decodificatore basato su LLM per estrarre le caratteristiche di visione e testo per i compiti discriminativi e generare in modo auto-regressivo i token di risposta nei compiti generativi.

È stata condotta un’ampia analisi dei dati in termini di qualità, scalabilità, diversità ed esperimenti analizzando e confrontando l’ASM proposto con un modello di base basato su CLIP (mostra le capacità di zero-shot di GPT-2 e 3) e i principali modelli di linguaggio multimodali di grandi dimensioni (VLLM) su compiti di visione rappresentativi, tra cui il riconoscimento di regioni zero-shot, la didascalia a livello di immagine e la didascalia a livello di regione. I risultati hanno evidenziato le forti capacità di generazione di testo a livello di regione del nostro modello, mostrando anche la sua capacità di comprendere l’intera immagine. I risultati dell’evaluazione umana hanno indicato che le didascalie generate dal nostro ASM sono preferite rispetto a quelle di MiniGPT4 e LLaVA.

Il modello è addestrato con prompt di linguaggio aperto e posizioni, il che gli consente di generalizzare a vari compiti di visione e linguaggio con una notevole performance di zero-shot, inclusi il recupero di testo-regione, il riconoscimento di regioni, la didascalia e la risposta alle domande. Questo, secondo i ricercatori, ha dato agli LLM un “occhio onniveggente” e ha rivoluzionato l’intersezione tra visione e linguaggio.