Questa ricerca di intelligenza artificiale presenta un nuovo approccio al riconoscimento dell’oggetto in posa come previsione del prossimo token.

Questa ricerca di intelligenza artificiale rivela un nuovo metodo per il riconoscimento dell'oggetto in posa come previsione del token successivo.

Come possiamo avvicinarci efficacemente al riconoscimento degli oggetti? Un team di ricercatori di Meta AI e dell’Università del Maryland ha affrontato il problema del riconoscimento degli oggetti sviluppando un nuovo metodo che utilizza un decoder di linguaggio per prevedere i token di testo dalle embedding delle immagini e formare etichette. Hanno anche proposto una strategia per creare un decoder più efficiente senza compromettere le prestazioni.

Il riconoscimento degli oggetti, precedente all’era dell’apprendimento approfondito, ha aiutato nell’annotazione delle immagini. I metodi utilizzati prevedevano il taglio delle regioni e la previsione delle parole, allineando le regioni con le parole utilizzando i lessici. L’associazione delle immagini e del testo in uno spazio condiviso ha affrontato la corrispondenza tra immagini e testo, evidenziando la base del frase grounding. L’annotazione delle immagini è evoluta dai modelli di argomento alle architetture basate su transformer. Modelli di linguaggio come GPT e LLaMA hanno contribuito alla percezione visiva e sono stati applicati nella rilevazione, nel riconoscimento di pochi campioni, nelle spiegazioni e nel ragionamento. Concetti architettonici dei modelli di linguaggio, come l’idea di prefisso, hanno influenzato ed esplorato il dominio visione-linguaggio.

Lo studio affronta il riconoscimento degli oggetti nella computer vision introducendo un framework con un encoder di immagini che produce embedding e un decoder di linguaggio che predice le etichette degli oggetti. A differenza dei metodi tradizionali con embedding fissi, l’approccio proposto considera il riconoscimento come la predizione del token successivo, consentendo la decodifica auto-regressiva delle etichette dalle embedding delle immagini. Elimina la necessità di etichette predefinite, promuovendo un riconoscimento flessibile ed efficiente. Le innovazioni chiave, tra cui una maschera di attenzione non causale e un decoder compatto, migliorano l’efficienza senza compromettere le prestazioni, offrendo una soluzione innovativa al riconoscimento degli oggetti nella computer vision.

La ricerca presenta un approccio al riconoscimento degli oggetti basato sulla previsione del token successivo, utilizzando un decoder di linguaggio che predice i token di testo dalle embedding delle immagini per creare etichette. Si utilizza la regressione automatica, incorporando una maschera di attenzione non causale per consentire al decoder di modellare i token in modo indipendente e trattare i token delle immagini come un prefisso. Si introduce il campionamento one-shot per il campionamento parallelo di token da più etichette, classificandoli per probabilità durante l’inferenza. Per l’efficienza, si propone una strategia di costruzione di un decoder compatto, che comporta l’eliminazione di blocchi intermedi da un modello di linguaggio preaddestrato pur mantenendo le prestazioni.

Lo studio confronta in modo approfondito CLIP, Open Flamingo, LLaVA, BLIP-2, InstructBLIP e CaSED, valutando le predizioni migliori-k e le curve precisione-recall. L’approccio proposto supera costantemente i concorrenti per le predizioni migliori-10, indicando una maggior rilevanza nella generazione di etichette. Le curve precisione-recall mostrano una forte correlazione lineare, suggerendo una migliore qualità delle previsioni su tutti i set di dati di test, con un maggiore richiamo al crescere di k. Gli studi di ablazione sulla troncatura del decoder mostrano una leggera diminuzione delle prestazioni su CC3M ma nessun cambiamento su COCO e OpenImages. Questo evidenzia l’importanza dei blocchi iniziali del modello LLaMA 7B per il riconoscimento degli oggetti, portando a rimuovere i blocchi dopo l’11° per ottenere un decoder più compatto.

In conclusione, l’approccio auto-regressivo proposto che utilizza la previsione del token successivo per il riconoscimento degli oggetti supera altri metodi nella generazione delle migliori-10 previsioni su tutti i set di dati, indicando una maggiore rilevanza nella generazione di etichette. La forte correlazione lineare osservata nelle curve precisione-recall suggerisce una migliore qualità delle previsioni su tutti i set di dati di test. Gli studi di ablazione sulla troncatura del decoder mostrano una leggera diminuzione delle prestazioni su CC3M ma nessun cambiamento su COCO e OpenImages. Inoltre, la rimozione dei blocchi intermedi del transformer nel modello LLaMA porta a un decoder più compatto con prestazioni paragonabili, evidenziando l’importanza di un sottoinsieme di conoscenze in LLMs per il riconoscimento degli oggetti.

Ricerche future potrebbero concentrarsi sull’affrontare i problemi di competizione nel campionamento one-shot esplorando strategie di mitigazione. Un’altra potenziale strada da esplorare è l’allineamento diretto di modelli generativi, in particolare LLMs, con il riconoscimento degli oggetti senza sottoinsiemi predefiniti o punti di riferimento di riferimento. Inoltre, sarebbe utile esaminare l’impatto di un aumento significativo del volume dei dati di addestramento per ridurre la dipendenza dall’interpretazione o dal riconoscimento di dati e concetti non visti, in linea con il paradigma del mondo aperto di apprendere incrementalmente nuove etichette nel tempo.