Google AI propone PixelLLM un modello di visione-linguaggio in grado di localizzazione dettagliata e allineamento visione-linguaggio.

Google AI presenta PixelLLM un modello di visione-linguaggio che permette localizzazione precisa e allineamento tra immagini e testo.

I modelli linguistici di grande dimensione (LLMs) hanno utilizzato con successo il potere dei sottocampi dell’Intelligenza Artificiale (AI), tra cui l’Elaborazione del Linguaggio Naturale (NLP), la Generazione del Linguaggio Naturale (NLG) e la Visione Artificiale. Grazie ai LLMs, è stato reso possibile creare modelli visione-linguaggio in grado di ragionare complessamente sulle immagini, rispondere a domande relative alle immagini e descrivere le immagini con un linguaggio naturale. Tuttavia, non è ancora certo se i LLM possono svolgere compiti di localizzazione come l’ancoraggio delle parole o il riferimento alla localizzazione.

Per superare questa sfida, un team di ricercatori di Google Research e UC San Diego ha introdotto un modello intelligente chiamato PixelLLM, in grado di effettuare localizzazione dettagliata e allineamento visione-linguaggio. Questo approccio è stato ispirato dal modo in cui le persone si comportano naturalmente, in particolare i bambini che descrivono il loro ambiente visivo con gesti, puntando e nominando. Il team ha condiviso che l’obiettivo è capire come i LLM possano derivare la comprensione spaziale e il ragionamento dall’input visivo.

PixelLLM allinea densemente ogni parola prodotta dal modello linguistico con una posizione pixel. Per farlo, è stato aggiunto un piccolo perceptron multistrato (MLP) in cima alle caratteristiche delle parole, consentendo di regredire alla posizione pixel di ogni parola. È stato utilizzato il finetuning a basso rango (LoRA), che consente di aggiornare o congelare i pesi del modello linguistico. Il modello può anche ricevere prompt di testo o di posizione, consentendo di fornire output personalizzati in base al prompt.

L’architettura del modello comprende un encoder di immagine, un encoder di prompt e un estrattore di caratteristiche di prompt. Un modello linguistico di grande dimensione riceve le caratteristiche dell’immagine condizionate dal prompt e un prompt opzionale di testo, con output nella forma di localizzazione per parole e didascalie. Con la capacità di accettare diverse combinazioni di linguaggio o posizione come input o output, l’architettura è versatile e adattabile a una vasta gamma di attività visione-linguaggio.

Il team ha valutato il modello utilizzando noti compiti di visione come la generazione di didascalie di oggetti densi, la generazione di didascalie condizionate dalla posizione e il riferimento alla localizzazione. Con notevoli metriche di performance, tra cui 89,8 [email protected] per il riferimento alla localizzazione su RefCOCO, 19,9 CIDEr per le didascalie condizionate da Visual Genome e 17,0 mAP per la generazione di didascalie di oggetti densi, PixelLLM ha dimostrato risultati all’avanguardia in diverse sfide. La formulazione di localizzazione densa per pixel è importante, come dimostrato da studi di ablazione su RefCOCO, che mostrano un guadagno di 3,7 punti rispetto ad altre formulazioni di localizzazione. Pertanto, PixelLLM si è dimostrato in grado di raggiungere un preciso allineamento visione-linguaggio e una localizzazione precisa.

Il team ha riassunto le sue principali contribuzioni nel modo seguente:

È stato introdotto un nuovo modello visione-linguaggio chiamato PixelLLM, che produce un ancoraggio delle parole e può generare didascalie per le immagini.

Il modello supporta prompt di testo o di posizione opzionali oltre all’input delle immagini.

È stato utilizzato un dataset narrativo localizzato per l’addestramento di localizzazione per parole.

Il modello è in grado di adattarsi a una varietà di compiti visione-linguaggio, compresa la segmentazione, la generazione di didascalie condizionate dalla posizione, il riferimento alla localizzazione e la generazione di didascalie dense.

Il modello ha mostrato risultati superiori nella generazione di didascalie condizionate dalla posizione, nella generazione di didascalie dense e nel riferimento alla localizzazione e segmentazione.

AI Shorts,Applications,artificial intelligence,Computer Vision,Editors Pick,Language Model

Google AI propone PixelLLM un modello di visione-linguaggio in grado di localizzazione dettagliata e allineamento visione-linguaggio.

Google AI presenta PixelLLM un modello di visione-linguaggio che permette localizzazione precisa e allineamento tra immagini e testo.

2023, anno degli LLM aperti

Diffusione stabile padroneggiare l’arte del design d’interni.

Tesla richiama 2 milioni di auto con contro...

Consulenti AI e strumenti di pianificazione...

Vera Molnár, Pioniera dell’Arte Infor...

Il partner tecnologico di cui ogni startup ...

Scelte intelligenti come l’IA miglior...

2023 in Rassegna Riassunto dell’Era P...

AI