Ricercatori dell’Imperial College di Londra e di DeepMind hanno progettato un framework di intelligenza artificiale che utilizza il linguaggio come strumento di ragionamento principale di un agente di RL.

Ricercatori di Imperial College Londra e DeepMind hanno creato un framework di intelligenza artificiale che utilizza il linguaggio come strumento principale di ragionamento per un agente di RL.

Negli ultimi anni ci sono stati progressi significativi nel campo del Deep Learning, in particolare nei popolari sottocampi dell’Intelligenza Artificiale, tra cui Elaborazione del Linguaggio Naturale (NLP), Comprendimento del Linguaggio Naturale (NLU) e Visione Artificiale (CV). Sono stati creati Grandi Modelli Linguistici (LLM) nel contesto dell’NLP e dimostrano straordinarie capacità di elaborazione del linguaggio e produzione di testi all’altezza delle capacità umane. D’altra parte, senza alcuna guida esplicita, i Vision Transformers (ViTs) della CV sono stati in grado di apprendere rappresentazioni significative da foto e video. Sono stati sviluppati anche Modelli Visione-Linguaggio (VLM) che possono collegare input visivi a descrizioni linguistiche o viceversa.

I Modelli Fondamentali dietro una vasta gamma di applicazioni che coinvolgono varie modalità di input sono stati preallenati su grandi quantità di dati testuali e visivi, portando all’emergere di attributi significativi come ragionamento del buon senso, proposizione e sequenziamento di sottogole e comprensione visiva. La prospettiva di utilizzare le capacità dei Modelli Fondamentali per creare agenti di apprendimento per rinforzo (RL) più efficaci e completi è oggetto di ricerca per i ricercatori. Gli agenti RL acquisiscono spesso conoscenze interagendo con l’ambiente circostante e ottenendo ricompense come feedback, ma questo metodo di apprendimento per tentativi ed errori può richiedere molto tempo e non essere fattibile.

Per affrontare queste limitazioni, un team di ricercatori ha proposto un framework che pone il linguaggio al centro degli agenti robotici di apprendimento per rinforzo, in particolare in scenari in cui è necessario imparare da zero. Il contributo principale del loro lavoro è dimostrare che utilizzando LLM e VLM possono affrontare efficacemente diversi problemi fondamentali in quattro specifici contesti di RL.

  1. Esplorazione efficiente in contesti con ricompense scarse: Gli agenti RL trovano difficile apprendere il miglior comportamento perché spesso trovano difficoltà nell’esplorare contesti con poche ricompense. L’approccio suggerito rende l’esplorazione e l’apprendimento in questi contesti più efficaci utilizzando le conoscenze conservate nei Modelli Fondamentali.
  1. Riutilizzo dei dati raccolti per l’apprendimento sequenziale: Il framework consente agli agenti RL di basarsi sui dati precedentemente raccolti anziché partire da zero ogni volta che si incontra un nuovo compito, agevolando l’apprendimento sequenziale di nuovi compiti.
  1. Pianificazione delle abilità apprese per nuovi compiti: Il framework supporta la pianificazione delle abilità apprese, consentendo agli agenti di gestire in modo efficiente nuovi compiti con le conoscenze attuali.
  1. Apprendimento dalle osservazioni degli agenti esperti: Utilizzando i Modelli Fondamentali per apprendere dalle osservazioni degli agenti esperti, i processi di apprendimento possono diventare più efficienti e veloci.

Il team ha riassunto i principali contributi come segue:

  1. Il framework è stato realizzato in modo da consentire all’agente RL di ragionare e prendere decisioni in modo più efficace sulla base delle informazioni testuali, utilizzando modelli linguistici e modelli di linguaggio visivo come strumenti di ragionamento fondamentali. Questo metodo migliora la capacità dell’agente di comprendere compiti e contesti impegnativi.
  1. Il framework proposto dimostra la sua efficacia nella risoluzione di problemi fondamentali di RL che in passato richiedevano algoritmi distinti e appositamente creati.
  1. Il nuovo framework supera le tecniche di riferimento convenzionali nel contesto della manipolazione robotica con ricompense scarse.
  2. Il framework dimostra anche di saper utilizzare in modo efficiente le abilità precedentemente apprese per completare compiti. La generalizzazione e l’adattabilità dell’agente RL sono migliorate dalla capacità di trasferire le informazioni apprese a nuove situazioni.
  1. Dimostra come l’agente RL può apprendere accuratamente da dimostrazioni osservabili imitando filmati di esperti umani.

In conclusione, lo studio mostra che i modelli linguistici e i modelli di linguaggio visivo hanno la capacità di funzionare come componenti centrali del ragionamento degli agenti di apprendimento per rinforzo.