Ricercatori dell’Università di Stanford propongono MLAgentBench una suite di compiti di apprendimento automatico per il benchmark di agenti di ricerca AI

Ricercatori dell'Università di Stanford presentano MLAgentBench, una suite di compiti di apprendimento automatico per il benchmark di agenti di ricerca AI

Gli scienziati umani possono esplorare le profondità dell’ignoto e fare scoperte che richiedono varie scelte indeterminate. Armati del corpo di conoscenze scientifiche a loro disposizione, i ricercatori umani esplorano territori inesplorati e fanno scoperte rivoluzionarie nel processo. Gli studi ora indagano se sia possibile costruire agenti di ricerca AI con capacità simili.

La presa di decisioni aperta e l’interazione libera con l’ambiente presentano difficoltà per la valutazione delle prestazioni, poiché questi processi possono richiedere molto tempo, risorse e sono difficili da quantificare.

Per valutare gli agenti di ricerca AI con capacità di decisione libera, i ricercatori dell’Università di Stanford propongono MLAgentBench, il primo benchmark del suo genere. L’idea di base di MLAgentBench è presentare un framework generale per valutare autonomamente gli agenti di ricerca su compiti di ricerca eseguibili ben definiti. In particolare, viene fornita una descrizione del compito e un elenco dei file richiesti per ogni assegnazione di studio. Gli agenti di ricerca con questi possono eseguire attività come leggere e scrivere file ed eseguire codice, proprio come farebbe un ricercatore umano. Le azioni dell’agente e gli snapshot intermedi dello spazio di lavoro vengono raccolti come parte della traccia di interazione per la valutazione.

Il team valuta l’agente di ricerca in base alla sua 1) competenza nel raggiungere gli obiettivi (come tasso di successo e quantità medie di miglioramenti) e al suo 2) ragionamento e processo di ricerca (come ha raggiunto il risultato o quali errori ha commesso) e 3) efficienza (quanto tempo e sforzo ha richiesto l’agente per raggiungere gli obiettivi).

Il team ha iniziato con una collezione di 15 progetti di ingegneria di ML che abbracciano vari settori, con esperimenti che sono veloci ed economici da eseguire. Forniscono programmi di inizio semplici per alcune di queste attività per garantire che l’agente possa effettuare invii validi. Una sfida, ad esempio, è migliorare le prestazioni di un modello Convolution Neural Networks (CNN) di oltre il 10% sul dataset cifar10. Per testare la generalizzabilità dell’agente di ricerca, non utilizzano solo dataset consolidati come cifar10, ma includono anche sfide Kaggle che sono di qualche mese fa e altri dataset di ricerca più recenti. Il loro obiettivo a lungo termine è includere varie assegnazioni di ricerca scientifica provenienti da vari settori nella collezione di compiti attuali.

In considerazione dei recenti progressi negli agenti generativi basati su Large language model (LLM), il team ha anche progettato un semplice agente di ricerca basato su LLM che può pianificare autonomamente la ricerca, leggere/modificare script, eseguire esperimenti, interpretare i risultati e continuare con esperimenti successivi negli ambienti di MLAgentBench. Come dimostrato dalle loro azioni e reazioni al di fuori di una semplice conversazione testuale, i LLM hanno una straordinaria conoscenza precedente che spazia dal senso comune quotidiano ad aree scientifiche specifiche e abilità di ragionamento e utilizzo di strumenti. A un livello più alto, chiedono semplicemente ai LLM di compiere la prossima azione, utilizzando un prompt che viene automaticamente prodotto in base alle informazioni disponibili sul compito e ai passaggi precedenti. Il design del prompt attinge ampiamente da metodi consolidati per la creazione di altri agenti generativi basati su LLM, come la deliberazione, la riflessione, la pianificazione passo dopo passo e la gestione di un registro di ricerca come uno stream di memoria.

Utilizzano anche una fase di azione gerarchica e di fact-checking per rendere l’agente di ricerca AI più affidabile e preciso. Dopo aver testato il loro agente di ricerca AI su MLAgentBench, hanno scoperto che, basandosi su GPT-4, era in grado di sviluppare piani di ricerca dinamici altamente interpretabili e costruire con successo un modello ML superiore su molti compiti, sebbene presentasse ancora diverse lacune. Raggiunge un miglioramento medio del 48,18 percento rispetto alla previsione di base su compiti consolidati come lo sviluppo di un modello migliore sul dataset ogbn-arxiv (Hu et al., 2020).

Tuttavia, il team sottolinea che l’agente di ricerca ha solo un tasso di successo del 0-30% sulle sfide di Kaggle e su BabyLM. Valutano quindi le prestazioni dell’agente di ricerca rispetto ad altri agenti modificati. I risultati mostrano che mantenere lo stream di memoria in corso potrebbe ostacolare le prestazioni su compiti semplici, forse perché era una distrazione e ha incoraggiato l’agente a esplorare complesse alterazioni.