Google AI propone PixelLLM un modello di visione-linguaggio in grado di localizzazione dettagliata e allineamento visione-linguaggio.

Google AI presenta PixelLLM un modello di visione-linguaggio che permette localizzazione precisa e allineamento tra immagini e testo.

I modelli linguistici di grande dimensione (LLMs) hanno utilizzato con successo il potere dei sottocampi dell’Intelligenza Artificiale (AI), tra cui l’Elaborazione del Linguaggio Naturale (NLP), la Generazione del Linguaggio Naturale (NLG) e la Visione Artificiale. Grazie ai LLMs, è stato reso possibile creare modelli visione-linguaggio in grado di ragionare complessamente sulle immagini, rispondere a domande relative alle immagini e descrivere le immagini con un linguaggio naturale. Tuttavia, non è ancora certo se i LLM possono svolgere compiti di localizzazione come l’ancoraggio delle parole o il riferimento alla localizzazione.

Per superare questa sfida, un team di ricercatori di Google Research e UC San Diego ha introdotto un modello intelligente chiamato PixelLLM, in grado di effettuare localizzazione dettagliata e allineamento visione-linguaggio. Questo approccio è stato ispirato dal modo in cui le persone si comportano naturalmente, in particolare i bambini che descrivono il loro ambiente visivo con gesti, puntando e nominando. Il team ha condiviso che l’obiettivo è capire come i LLM possano derivare la comprensione spaziale e il ragionamento dall’input visivo.

PixelLLM allinea densemente ogni parola prodotta dal modello linguistico con una posizione pixel. Per farlo, è stato aggiunto un piccolo perceptron multistrato (MLP) in cima alle caratteristiche delle parole, consentendo di regredire alla posizione pixel di ogni parola. È stato utilizzato il finetuning a basso rango (LoRA), che consente di aggiornare o congelare i pesi del modello linguistico. Il modello può anche ricevere prompt di testo o di posizione, consentendo di fornire output personalizzati in base al prompt.

L’architettura del modello comprende un encoder di immagine, un encoder di prompt e un estrattore di caratteristiche di prompt. Un modello linguistico di grande dimensione riceve le caratteristiche dell’immagine condizionate dal prompt e un prompt opzionale di testo, con output nella forma di localizzazione per parole e didascalie. Con la capacità di accettare diverse combinazioni di linguaggio o posizione come input o output, l’architettura è versatile e adattabile a una vasta gamma di attività visione-linguaggio.

Il team ha valutato il modello utilizzando noti compiti di visione come la generazione di didascalie di oggetti densi, la generazione di didascalie condizionate dalla posizione e il riferimento alla localizzazione. Con notevoli metriche di performance, tra cui 89,8 [email protected] per il riferimento alla localizzazione su RefCOCO, 19,9 CIDEr per le didascalie condizionate da Visual Genome e 17,0 mAP per la generazione di didascalie di oggetti densi, PixelLLM ha dimostrato risultati all’avanguardia in diverse sfide. La formulazione di localizzazione densa per pixel è importante, come dimostrato da studi di ablazione su RefCOCO, che mostrano un guadagno di 3,7 punti rispetto ad altre formulazioni di localizzazione. Pertanto, PixelLLM si è dimostrato in grado di raggiungere un preciso allineamento visione-linguaggio e una localizzazione precisa.

Il team ha riassunto le sue principali contribuzioni nel modo seguente:

  1. È stato introdotto un nuovo modello visione-linguaggio chiamato PixelLLM, che produce un ancoraggio delle parole e può generare didascalie per le immagini.
  1. Il modello supporta prompt di testo o di posizione opzionali oltre all’input delle immagini.
  1. È stato utilizzato un dataset narrativo localizzato per l’addestramento di localizzazione per parole.
  1. Il modello è in grado di adattarsi a una varietà di compiti visione-linguaggio, compresa la segmentazione, la generazione di didascalie condizionate dalla posizione, il riferimento alla localizzazione e la generazione di didascalie dense.
  1. Il modello ha mostrato risultati superiori nella generazione di didascalie condizionate dalla posizione, nella generazione di didascalie dense e nel riferimento alla localizzazione e segmentazione.