Questa ricerca di apprendimento automatico da DeepMind introduce modelli vettoriali quantizzati (VQ) per la pianificazione avanzata in ambienti dinamici

La rivoluzionaria ricerca di apprendimento automatico di DeepMind introduce i modelli vettoriali quantizzati (VQ) per la pianificazione avanzata in contesti dinamici

Con i continui progressi nella tecnologia, l’Intelligenza Artificiale sta consentendo ai computer di pensare e apprendere in modo simile agli esseri umani, imitando le capacità del cervello umano. I recenti progressi nell’Intelligenza Artificiale, nell’Apprendimento Automatico (ML) e nell’Apprendimento Profondo hanno contribuito a migliorare diversi settori, tra cui la sanità, la finanza, l’istruzione e altro. I Grandi Modelli Linguistici (LLM), che hanno recentemente attirato molta attenzione per il loro incredibile potenziale, hanno dimostrato grandi capacità di imitazione umana. Dalla risposta alle domande e alla sintesi del testo alla generazione di codice e al completamento del codice, questi modelli eccellono in ogni compito.

Gli LLM vengono ottimizzati utilizzando il concetto di un paradigma di Apprendimento Automatico chiamato Apprendimento per Rinforzo. Nell’Apprendimento per Rinforzo, un agente acquisisce abilità di decisione attraverso l’interazione con l’ambiente circostante. Cerca di massimizzare un segnale di ricompensa cumulativo nel tempo agendo nell’ambiente. L’Apprendimento per Rinforzo basato sul modello (RL) ha fatto progressi recenti e ha mostrato promesse in una varietà di contesti, soprattutto quelli che richiedono la pianificazione. Tuttavia, questi successi sono stati limitati a situazioni completamente osservate e deterministiche.

In una recente ricerca, un team di ricercatori di DeepMind ha proposto una nuova strategia per la pianificazione utilizzando modelli vettoriali quantizzati. Questo approccio è destinato a risolvere problemi in ambienti stocastici e parzialmente osservabili. Questo metodo include l’incorporazione di future osservazioni in variabili latenti discrete utilizzando un modello VQVAE (Variational Autoencoders quantizzato in vettori) di stato e di transizione. Ciò rende pertinente contesti stocastici o parzialmente osservabili, consentendo la pianificazione di future osservazioni e azioni future.

Il team ha condiviso che gli autoencoder discreti sono stati utilizzati in questo approccio al fine di catturare i vari possibili esiti di un’azione in un contesto stocastico. I design di reti neurali noti come autoencoder prendono dati di input, li codificano in una rappresentazione latente, per poi decodificarli nella forma originale. L’utilizzo di autoencoder discreti ha reso possibile la rappresentazione di diversi risultati alternativi derivanti dal comportamento dell’agente in un contesto stocastico.

Il team ha utilizzato una versione stocastica della ricerca albero di Monte Carlo per semplificare la pianificazione in questi tipi di contesti. Un approccio popolare per prendere decisioni nella pianificazione e nei processi decisionali è la ricerca albero di Monte Carlo. In questo caso, la variante stocastica permette di tenere conto dell’incertezza ambientale. Nell’ambito della pianificazione, oltre alle azioni dell’agente, sono state incluse variabili latenti discrete che indicano le possibili risposte dell’ambiente. Questo metodo globale cerca di catturare la complessità derivante dalla parzialità dell’osservazione e dalla stocasticità.

Il team ha valutato l’approccio, dimostrando che supera una variante offline di MuZero, un noto sistema RL, in una interpretazione stocastica degli scacchi. Secondo questa prospettiva, l’avversario introduce incertezza nel sistema ed è considerato un componente essenziale dell’ambiente circostante. L’implementazione efficace dell’approccio nel DeepMind Lab ha dimostrato la scalabilità dell’approccio. I risultati favorevoli osservati in questo scenario hanno dimostrato la flessibilità e l’efficacia dell’approccio nella gestione di contesti complessi e dinamici al di là dei tradizionali giochi da tavolo.

In conclusione, questa tecnica di apprendimento per rinforzo basata sui modelli amplia l’efficacia degli ambienti completamente osservati e deterministici nei contesti parzialmente osservabili e stocastici. Gli autoencoder discreti e una versione stocastica della ricerca albero di Monte Carlo dimostrano una comprensione sofisticata delle difficoltà presentate dagli ambienti incerti, migliorando le prestazioni nelle applicazioni pratiche.