Incontra JARVIS-1 agenti multitask di Open-World con modelli di linguaggio multimodali potenziati dalla memoria

Incontra JARVIS-1 l'agente multitasking di Open-World potenziato da modelli di linguaggio multimodali e memoria

Un team di ricercatori provenienti dalla Peking University, UCLA, la Beijing University of Posts and Telecommunications e il Beijing Institute for General Artificial Intelligence introduce JARVIS-1, un agente multimodale progettato per compiti di mondo aperto in Minecraft. Sfruttando modelli di linguaggio multimodale pre-addestrati, JARVIS-1 interpreta osservazioni visive ed istruzioni umane, generando piani sofisticati per il controllo incorporato.

JARVIS-1 utilizza input multimodali e modelli di linguaggio per la pianificazione e il controllo. Sviluppato su modelli di linguaggio multimodale pre-addestrati, JARVIS-1 integra una memoria multimodale per la pianificazione basata su conoscenze pre-addestrate ed esperienze di gioco. Raggiungendo prestazioni quasi perfette su 200 compiti diversi, eccelle particolarmente nel compito complesso del pickaxe al diamante a lungo termine, ottenendo un miglioramento di cinque volte nel tasso di completamento. Lo studio enfatizza l’importanza della memoria multimodale nel migliorare l’autonomia e l’intelligenza generale dell’agente in scenari di mondo aperto.

La ricerca affronta le sfide nella creazione di agenti sofisticati per compiti complessi in ambienti di mondo aperto. Le approcci esistenti necessitano di aiuto con dati multimodali, pianificazione a lungo termine e apprendimento permanente. L’agente JARVIS-1 proposto, creato su modelli di linguaggio multimodale pre-addestrati, eccelle nei compiti di Minecraft. JARVIS-1 raggiunge prestazioni quasi perfette su oltre 200 compiti, migliorando significativamente il compito del pickaxe al diamante a lungo termine. L’agente dimostra un apprendimento autonomo, evolvendo con un intervento esterno minimo, contribuendo alla ricerca di un’intelligenza artificiale in generale capace.

JARVIS-1, progettato su modelli di linguaggio multimodale pre-addestrati, combina input visivi e testuali per generare piani. La memoria multimodale dell’agente integra conoscenze pre-addestrate con esperienze di gioco per la pianificazione. Gli approcci esistenti utilizzano architetture di esecuzione degli obiettivi gerarchici e modelli di linguaggio ampi come pianificatori di alto livello. JARVIS-1 è valutato su 200 compiti del Minecraft Universe Benchmark, rivelando sfide nelle funzioni del diamante a causa dell’esecuzione imperfetta delle istruzioni di testo a breve termine da parte del controller.

La memoria multimodale di JARVIS-1 favorisce l’auto-miglioramento, migliorando l’intelligenza generale e l’autonomia superando gli altri agenti che seguono istruzioni. JARVIS-1 supera DEPS senza memoria in compiti impegnativi, con il tasso di successo nei compiti correlati al diamante quasi triplicato. Lo studio sottolinea l’importanza del raffinamento della generazione di piani per facilitare l’esecuzione e migliorare l’abilità del controller nel seguire le istruzioni, in particolare nei compiti legati al diamante.

JARVIS-1, un agente di mondo aperto creato su modelli di linguaggio multimodale pre-addestrati, è competente nella percezione multimodale, nella generazione di piani e nel controllo incorporato all’interno dell’universo di Minecraft. L’integrazione della memoria multimodale migliora la presa delle decisioni sfruttando conoscenze pre-addestrate e esperienze in tempo reale. JARVIS-1 aumenta notevolmente i tassi di completamento per compiti come il pickaxe al diamante a lungo termine, superando i record precedenti fino a cinque volte. Questa svolta prepara il terreno per futuri sviluppi in agenti versatili ed adattabili in complessi ambienti virtuali.

Ulteriori ricerche suggeriscono di migliorare la generazione di piani per l’esecuzione dei compiti, migliorare l’abilità del controller nel seguire le istruzioni nei compiti legati al diamante e investigare metodi per facilitarne l’esecuzione. Si propone di esplorare modi per potenziare la presa di decisioni in scenari di mondo aperto attraverso la memoria multimodale e le esperienze in tempo reale. Si raccomanda di espandere le capacità di JARVIS-1 per una gamma più ampia di compiti in Minecraft e l’adattamento potenziale ad altri ambienti virtuali. Lo studio incoraggia il miglioramento continuo attraverso l’apprendimento permanente, favorisce l’auto-miglioramento e lo sviluppo di una maggiore intelligenza generale e autonomia in JARVIS-1.