Valutare i grandi modelli di linguaggio incontra AgentSims, un framework di intelligenza artificiale basato su compiti per test completi e obiettivi

Valutazione dei modelli di linguaggio con AgentSims, un framework di intelligenza artificiale basato su compiti e obiettivi completi.

Le LLM hanno cambiato il modo in cui viene concepito l’elaborazione del linguaggio (NLP), ma il problema della loro valutazione persiste. Le vecchie norme alla fine diventano obsolete, dato che i LLM possono svolgere NLU e NLG a livello umano (OpenAI, 2023) utilizzando dati linguistici.

In risposta all’urgente necessità di nuovi benchmark in aree come i test di conoscenza basati su domande e risposte (QA) a libro chiuso, gli esami standardizzati incentrati sull’essere umano, il dialogo a più turni, il ragionamento e la valutazione della sicurezza, la comunità NLP ha sviluppato nuovi compiti e set di dati di valutazione che coprono una vasta gamma di competenze.

Tuttavia, persistono i seguenti problemi con queste norme aggiornate:

  1. Il formato dei compiti impone limitazioni alle abilità valutabili. La maggior parte di queste attività utilizza uno stile di domanda e risposta a un solo turno, rendendole inadeguate per valutare la versatilità dei LLM nel complesso.
  2. È semplice manipolare i benchmark. Quando si determina l’efficacia di un modello, è fondamentale che il set di test non venga compromesso in alcun modo. Tuttavia, con così tante informazioni già formate sui LLM, è sempre più probabile che i casi di test vengano mescolati con i dati di addestramento.
  3. Le metriche attualmente disponibili per le domande e risposte aperte sono soggettive. Le misure tradizionali per le domande e risposte aperte hanno incluso una valutazione umana sia oggettiva che soggettiva. Nell’era dei LLM, le misure basate sul confronto di segmenti di testo non sono più rilevanti.

I ricercatori stanno attualmente utilizzando valutatori automatici basati su LLM ben allineati come GPT4 per ridurre il costo elevato della valutazione umana. Sebbene i LLM siano inclini a determinati tratti, il problema più grande di questo metodo è che non può analizzare modelli di livello superiore a GPT4.

Studi recenti condotti da PTA Studio, Pennsylvania State University, Beihang University, Sun Yat-sen University, Zhejiang University e East China Normal University presentano AgentSims, un’architettura per la cura dei compiti di valutazione per i LLM che è interattiva, visivamente attraente e basata su programmazione. L’obiettivo principale di AgentSims è facilitare il processo di progettazione dei compiti rimuovendo le barriere che i ricercatori con diversi livelli di competenze di programmazione possono incontrare.

I ricercatori nel campo dei LLM possono sfruttare l’estensibilità e la combinabilità di AgentSims per esaminare gli effetti della combinazione di più piani, sistemi di memoria e di apprendimento. L’interfaccia utente di AgentSims per la generazione di mappe e la gestione degli agenti la rende accessibile a specialisti in discipline diverse come l’economia comportamentale e la psicologia sociale. Un design user-friendly come questo è fondamentale per la crescita e lo sviluppo continuo del settore LLM.

Il paper di ricerca afferma che AgentSims è migliore dei benchmark attuali dei LLM, che testano solo un numero limitato di competenze e utilizzano dati e criteri di test aperti a interpretazioni. Gli scienziati sociali e altri utenti non tecnici possono creare rapidamente ambienti e progettare compiti utilizzando i menu e le funzionalità di trascinamento dell’interfaccia grafica. Modificando le classi astratte dell’agente, della pianificazione, della memoria e dell’uso degli strumenti del codice, i professionisti dell’IA e gli sviluppatori possono sperimentare con vari sistemi di supporto LLM. Il tasso di successo dell’obiettivo del compito può essere determinato mediante una valutazione basata sugli obiettivi. In sintesi, AgentSims facilita lo sviluppo comunitario interdisciplinare di robusti benchmark LLM basati su simulazioni sociali variegate con obiettivi espliciti.