Incontra PaLM-E un nuovo modello di linguaggio multimodale incorporato con 562 miliardi di parametri che esegue compiti come la pianificazione della manipolazione robotica e la QA visiva.

Incontra PaLM-E, un modello di linguaggio multimodale con 562 miliardi di parametri che esegue compiti come la pianificazione della manipolazione robotica e la QA visiva.

Le grandi modelli di linguaggio (LLM) mostrano abilità di ragionamento avanzate in una varietà di campi, tra cui conversazione, ragionamento passo-passo, risoluzione di problemi matematici e scrittura di codice. Sebbene addestrare i LLM su grandi quantità di dati testuali possa produrre rappresentazioni legate al loro ambiente fisico, collegare tali rappresentazioni alle modalità sensoriali visive e fisiche del mondo reale è cruciale per risolvere una vasta gamma di problemi concreti nel campo della visione artificiale e della robotica.

Lavori precedenti collegano l’output dei LLM a politiche robotiche apprese e funzioni di affordance per prendere decisioni, ma ciò è limitato. Il limite dei lavori precedenti è che il LLM riceve solo input testuali, il che è insufficiente per molte attività in cui la configurazione geometrica della scena è cruciale. Inoltre, la loro ricerca dimostra che i modelli visivi e linguistici all’avanguardia addestrati su compiti comuni di visione e linguaggio, come la risposta alle domande visive (VQA), non possono risolvere direttamente i problemi di ragionamento robotico. In questo studio, ricercatori di Google e TU Berlin suggeriscono modelli di linguaggio incorporati, che includono direttamente input continui dalle modalità sensoriali di un agente incorporato e consentono al modello di linguaggio di trarre conclusioni più accurate per la presa di decisioni sequenziali nel mondo reale. Sviluppano PaLM-E, che è un grande modello multimodale incorporato che mostra un trasferimento positivo e può risolvere una serie di problemi di ragionamento incorporati da diverse modalità di osservazione su numerose entità.

PaLM-E LLM mostra un trasferimento positivo in cui la conoscenza o le competenze della lingua madre di un apprendista (L1) possono essere applicate all’apprendimento della seconda lingua (L2), risultando in un’acquisizione più rapida ed efficace della L2. Ad esempio, se la grammatica della L1 di un apprendista ha una struttura simile alla L2 che sta imparando, potrebbe essere in grado di utilizzare la conoscenza della grammatica della L1 per comprendere e applicare più rapidamente le regole grammaticali della L2. Allo stesso modo, se la L1 e la L2 di un apprendista condividono parole simili (parole che hanno una grafia e un significato simili in entrambe le lingue), potrebbe essere in grado di espandere rapidamente il proprio vocabolario della L2 riconoscendo e ricordando queste parole simili. Il trasferimento positivo può essere contrastato con il trasferimento negativo, che si verifica quando la conoscenza o le competenze della L1 di un apprendista interferiscono con la sua capacità di acquisire la L2. Ad esempio, se la struttura grammaticale della L1 di un apprendista è molto diversa da quella della L2, potrebbe avere difficoltà nell’applicare correttamente le regole grammaticali della L2, anche se le comprende a livello intellettuale.

Similmente a come i token di linguaggio vengono elaborati dai livelli di auto-attenzione di un LLM basato su Transformer, anche input come immagini e stime di stato vengono incorporati nella stessa rappresentazione latente dei token di linguaggio. Iniziano iniettando gli input continui attraverso un codificatore in un LLM pre-addestrato. Questi codificatori sono stati addestrati end-to-end per produrre giudizi sequenziali in linguaggio naturale, che l’agente incorporato può comprendere configurando regole a basso livello o rispondendo a una query incorporata. Contrapponendo varie rappresentazioni di input (come codifiche standard vs. object-centric ViT per l’input visivo), congelando vs. affinando il modello di linguaggio durante l’addestramento dei codificatori e verificando se il co-addestramento su compiti multipli consente il trasferimento, valutano l’approccio in una serie di contesti.

Testano la tecnica su tre domini di manipolazione robotica (due dei quali sono closed-loop nel mondo reale), compiti visivo-linguistici comuni come VQA e didascalia di immagini e compiti di linguaggio, per determinare l’ampiezza dell’approccio. Secondo i loro risultati, l’addestramento multi-task migliora le prestazioni rispetto all’addestramento di modelli per singoli compiti. Dimostrano come questo trasferimento tra compiti possa portare a una grande efficienza dei dati per compiti di robotica, inclusa la generalizzazione in one-shot o zero-shot a combinazioni di elementi nuovi o oggetti sconosciuti e migliorare notevolmente le prestazioni di apprendimento da un numero limitato di campioni di addestramento. Secondo la loro conoscenza, il PaLM LLM da 540B e il Vision Transformer (ViT) da 22B sono combinati per creare il modello visione-linguaggio più grande mai pubblicato, portando PaLM-E a 562B parametri.

Senza utilizzare un affinamento specifico del compito, PaLM-E-562B raggiunge prestazioni all’avanguardia sul benchmark OK-VQA. Scoprono anche che PaLM-E-562B mostra una vasta gamma di competenze nonostante sia stato addestrato solo su esempi di immagini singole, compresa la catena di pensiero multimodale in zero-shot (CoT), il ragionamento aritmetico senza OCR e il ragionamento multi-immagine. Il CoT in zero-shot, inizialmente solo una nozione linguistica, non è ancora stato dimostrato, secondo la loro conoscenza, utilizzando un modello end-to-end su dati multimodali con programmi specifici del compito.

Per riassumere i loro contributi principali, essi (1) suggeriscono e mostrano come i dati incorporati possano essere inclusi nell’addestramento di un modello di linguaggio multimodale per creare un agente di decisione multi-embodiment generalista e di trasferimento appreso. Dimostrano che, anche se i modelli visivo-linguistici general-purpose all’avanguardia non affrontano efficacemente le questioni del ragionamento incorporato “out of the box” (a zero-shot), è possibile addestrare un modello visivo-linguistico general-purpose che sia sia un ragionatore incorporato efficace che competente. Nella ricerca dell’addestramento ottimale di tali modelli,

Essi (3) forniscono nuovi concetti architettonici, inclusi token multimodali di etichettatura delle entità e rappresentazioni neurali della scena. Infine, essi (4) dimostrano che PaLM-E è anche un generale di visione e linguaggio abile dal punto di vista quantitativo, oltre alla loro concentrazione su PaLM-E come ragionatore incorporato, e (5) mostrano che l’espansione della dimensione del modello di linguaggio consente un fine-tuning multimodale con un minor “catastrophic forgetting”. Diverse demo possono essere trovate sul loro sito web del progetto.