Ricercatori dell’UCLA e di Google propongono AVIS un rivoluzionario framework di intelligenza artificiale per la ricerca autonoma delle informazioni nella risposta alle domande visive.

Ricercatori dell'UCLA e di Google propongono un rivoluzionario framework di intelligenza artificiale per la ricerca delle informazioni visive.

GPT3, LaMDA, PALM, BLOOM e LLaMA sono solo alcuni esempi di grandi modelli di linguaggio (LLM) che hanno dimostrato la loro capacità di memorizzare e applicare grandi quantità di informazioni. Vengono mostrate nuove competenze come l’apprendimento in contesto, la creazione di codice e il ragionamento basato sul buon senso. Un recente sforzo è stato quello di addestrare i LLM a elaborare contemporaneamente dati visivi e linguistici. GPT4, Flamingo e PALI sono tre illustri esempi di VLM. Hanno stabilito nuovi benchmark per numerosi compiti, tra cui la descrizione delle immagini, la risposta alle domande visive e il riconoscimento del vocabolario aperto. Mentre i LLM di ultima generazione sono molto migliori degli esseri umani nei compiti che riguardano il recupero di informazioni testuali, i VLM di ultima generazione hanno difficoltà con i dataset di ricerca di informazioni visive come Infoseek, Oven e OK-VQA.

Per molte ragioni, è difficile per i modelli di visione-linguaggio (VLM) più avanzati di oggi rispondere in modo soddisfacente a tali domande. I giovani devono imparare a riconoscere categorie e dettagli più specifici nelle immagini. In secondo luogo, il loro ragionamento deve essere più robusto perché utilizzano un modello di linguaggio più piccolo rispetto ai modelli di linguaggio di grandi dimensioni (LLM) all’avanguardia. Infine, a differenza dei motori di ricerca di immagini, non esaminano l’immagine di query rispetto a un ampio corpus di immagini contrassegnate con metadati diversi. In questo studio, i ricercatori dell’Università della California, Los Angeles (UCLA) e di Google forniscono un nuovo approccio per superare questi ostacoli unendo i LLM a tre diverse tipologie di strumenti, ottenendo prestazioni all’avanguardia nei compiti di ricerca di informazioni visive.

  • I programmi informatici che aiutano nell’estrazione delle informazioni visive includono rilevatori di oggetti, software di riconoscimento ottico dei caratteri, modelli di descrizione delle immagini e software di valutazione della qualità visiva.
  • Una risorsa online per scoprire dati e informazioni sul mondo esterno
  • Un metodo per trovare risultati pertinenti in una ricerca di immagini attraverso l’analisi dei metadati di immagini visivamente correlate.

Il metodo utilizza un pianificatore guidato da un LLM per decidere quale strumento utilizzare e quale query inviare in tempo reale. Inoltre, i ricercatori utilizzano un ragionatore alimentato da un LLM per esaminare i risultati degli strumenti e estrarre i dati pertinenti.

Per iniziare, il LLM semplifica una query in una strategia, un programma o un insieme di istruzioni. Successivamente, vengono attivate le API appropriate per raccogliere dati. Sebbene promettente in sfide visivo-linguistiche semplici, questo approccio spesso deve essere revisionato in scenari reali più complessi. Non è possibile determinare una strategia completa da una singola query. Invece, richiede un’iterazione continua in risposta ai dati in corso. La capacità di prendere decisioni al volo è l’innovazione chiave della strategia proposta. La pianificazione delle domande che richiedono informazioni visive è un processo a più fasi a causa della complessità dell’incarico. Il pianificatore deve decidere quale API utilizzare e quale query inviare in ogni fase. Può solo anticipare l’utilità delle risposte da API sofisticate come la ricerca di immagini o prevederne l’output dopo averle chiamate. Pertanto, i ricercatori scelgono una strategia dinamica invece dei metodi tradizionali, che includono la pianificazione preventiva delle fasi di processo e delle chiamate alle API.

I ricercatori conducono uno studio utente per comprendere meglio come le persone prendono decisioni durante l’interazione con le API per trovare informazioni visive. Per consentire al Large Language Model (LLM) di prendere decisioni informate sulla selezione delle API e sulla formulazione delle query, raccolgono queste informazioni in un framework sistematico. Ci sono due modi principali in cui il sistema beneficia dei dati utente raccolti. Iniziano costruendo un grafico di transizione deducendo l’ordine delle azioni dell’utente. Questo grafico definisce i confini tra gli stati e i passaggi che possono essere compiuti in ciascuno. In secondo luogo, forniscono al pianificatore e al ragionatore utili esempi di decisioni prese dagli utenti.

Contributi Chiave

  • Il team propone un innovativo framework di risposta alle domande visive, che utilizza un grande modello di linguaggio (LLM) per pianificare dinamicamente l’utilizzo di strumenti esterni e l’indagine dei loro output, apprendendo quindi le conoscenze necessarie per fornire risposte alle domande poste.
  • Il team utilizza i risultati dello studio utente su come le persone prendono decisioni per creare un piano sistematico. Questo framework istruisce il grande modello di linguaggio (LLM) a imitare la presa di decisioni umana nella selezione delle API e nella creazione di query.
  • La strategia supera le soluzioni all’avanguardia su Infoseek e OK-VQA, due benchmark per la risposta alle domande visive basate sulla conoscenza. In particolare, rispetto alla precisione del 16,0% di PALI sul dataset Infoseek (split entità non viste), i nostri risultati sono nettamente superiori al 50,7%.

API e altri strumenti

AVIS (Autonomous Visual Information Seeking with Large Language Models) ha bisogno di un robusto set di risorse per rispondere a domande visive che richiedono un appropriato recupero di informazioni approfondite.

  • Modello di descrizione delle immagini
  • Modello di risposta alle domande visive
  • Rilevamento degli oggetti
  • Ricerca di immagini
  • Riconoscimento ottico dei caratteri (OCR)
  • Ricerca sul web
  • LLM Short QA

Limitazioni

Attualmente, la funzione principale di AVIS è quella di fornire risposte visive alle domande. I ricercatori hanno in programma di ampliare il campo di applicazione del sistema di decisione dinamica basato su LLM per includere ulteriori applicazioni di ragionamento. Attualmente, il framework richiede anche il modello PALM, un LLM computazionalmente complesso. Vogliono determinare se modelli di linguaggio più piccoli e meno intensivi dal punto di vista computazionale possono prendere le stesse decisioni.

Per riassumere, i ricercatori dell’UCLA e di Google hanno proposto un nuovo metodo che dà ai Large Language Models (LLM) accesso a una vasta gamma di risorse per elaborare interrogazioni di conoscenza orientate visivamente. La metodologia si basa sui dati di uno studio sugli utenti riguardo alla presa di decisioni umane. Utilizza un framework strutturato in cui un pianificatore alimentato da LLM sceglie quali strumenti utilizzare e come costruire le interrogazioni al volo. L’output dello strumento selezionato viene elaborato e un ragionatore alimentato da 9 LLM estrae le informazioni chiave. Una domanda visiva viene scomposta in pezzi più piccoli e il pianificatore e il ragionatore lavorano insieme per risolverne ciascuno utilizzando una varietà di strumenti fino a quando non hanno accumulato dati sufficienti per rispondere alla domanda.