Incontra CREATOR un nuovo framework di intelligenza artificiale che permette agli LLM di creare i propri strumenti attraverso la documentazione e la realizzazione del codice

Incontra CREATOR, un nuovo framework di intelligenza artificiale per la creazione di strumenti personalizzati tramite documentazione e codifica.

I modelli di linguaggio di grandi dimensioni (LLM) hanno fatto progressi significativi negli ultimi anni, come GPT-3, Codex, PaLM, LLaMA, ChatGPT e il più recente GPT4. Il potenziale dei LLM viene spinto sempre più vicino all’Intelligenza Artificiale Generale grazie alle eccezionali prestazioni di questi modelli nell’apprendimento contestuale, nella generazione di codice e in varie altre attività di elaborazione del linguaggio naturale. Nonostante questi risultati impressionanti, i LLM attuali presentano alcuni svantaggi, come l’incapacità di riconoscere o reagire alle informazioni presenti, frequenti fallimenti nel fornire soluzioni matematiche precise e comprensibili, e instabilità nel ragionamento attraverso una lunga catena di logica. Una linea di studio è stata motivata per fornire ai LLM strumenti esterni per alleviare il loro carico di memorizzazione e migliorare la loro competenza nel risolvere questi problemi. Ad esempio, l’inclusione di strumenti come un motore di ricerca web o un sistema di domande e risposte (QA) consente ai LLM di imparare quando e come utilizzare risorse esterne per la risoluzione dei problemi. In recenti ricerche sono stati utilizzati anche altri strumenti esterni per i LLM, tra cui risorse GitHub, modelli di reti neurali (come il modulo Huggingface) ed interpreti di codice (come l’interprete Python). I LLM devono fornire ampie linee guida prima di utilizzare queste tecniche per risolvere problemi complessi.

Figura 1 illustra come CREATOR differisce da un framework per l’uso generale di strumenti.

I LLM potenziati dagli strumenti affrontano comunque diverse difficoltà, e prestano particolare attenzione alle seguenti aree: (1) Mentre la varietà di possibili attività innovative rimane essenzialmente illimitata, la maggior parte dei lavori attuali si concentra su un numero limitato di strumenti. Di conseguenza, potrebbe essere difficile individuare uno strumento esistente adatto per risolvere un nuovo problema. (2) L’approccio attuale dei modelli di linguaggio per dedurre come utilizzare gli strumenti in modo più efficace è intrinsecamente complicato. L’intero processo di gestione delle attività richiede una pianificazione estesa, che mette un forte sforzo cognitivo sui modelli e richiede un costo di apprendimento elevato. (3) Dopo aver ricevuto i risultati dell’esecuzione, le pipeline di utilizzo degli strumenti mancano di un meccanismo definito ed automatizzato per la gestione degli errori. L’accuratezza e la robustezza del framework richiedono ancora ulteriori sviluppi. In questo lavoro, ricercatori dell’Università di Tsinghua e dell’Università dell’Illinois (UC) intendono affrontare questi ostacoli da una prospettiva nuova: permettono ai LLM di essere gli sviluppatori degli strumenti e risolvere i problemi con maggiore precisione e flessibilità. Invece di lasciare che i LLM siano i consumatori degli strumenti.

Di conseguenza, introducono CREATOR, il loro framework di sviluppo degli strumenti, che utilizza la capacità dei LLM di sviluppare strumenti e apportare correzioni in base a parametri esistenti prima di affrontare un problema specifico. Dimostrano le variazioni delle pipeline tra CREATOR e un framework tipico per l’uso degli strumenti nella Figura 1. Il framework per l’uso degli strumenti si concentra su come utilizzare ragionamenti per scegliere e pianificare l’uso delle API in modo più efficace. In contrasto, il loro focus è sulla diversificazione del set di strumenti, sulla disaccoppiatura dei vari livelli di ragionamento e sul miglioramento della resilienza e della correttezza del framework.

CREATOR può essere suddiviso in quattro fasi:

• Creazione: Utilizzando la capacità di ragionamento astratto del LLM basata sul problema, creare strumenti ampiamente applicabili attraverso documentazione e realizzazione del codice.

• Decisione: Scegliere quando e come applicare lo strumento utilizzando gli strumenti appropriati.

• Implementazione: Eseguire il programma in cui il LLM utilizza lo strumento per affrontare il problema.

• Rettifica: Sulla base dei risultati dell’esecuzione, modificare gli strumenti e le scelte.

Inizialmente eseguono test su CREATOR utilizzando MATH e TabMWP come due benchmark esistenti per valutare l’efficacia del loro design. Mentre TabMWP offre diverse impostazioni tabulari per la risoluzione dei problemi, il dataset MATH contiene sfide matematiche difficili e varie. ‘In particolare, ChatGPT costruito su CREATOR supera le basi tradizionali di catena di pensiero (CoT), programma di pensiero (PoT) e utilizzo degli strumenti con margini considerevoli, raggiungendo una precisione media del 59,7% e del 94,7%, rispettivamente, sui dataset MATH e TabMWP.

Propongono inoltre il dataset Creation Challenge, che comprende sfide innovative e complesse che devono essere risolte utilizzando strumenti o pacchetti di codice esistenti, poiché i benchmark esistenti non sono appositamente progettati per valutare la creazione di strumenti. Utilizzando questo dataset, dimostrano il valore e l’utilizzo delle capacità di creazione degli strumenti dei LLM e offrono anche risultati sperimentali e studi di caso che mostrano come lo sviluppo degli strumenti favorisca il trasferimento delle conoscenze e che i LLM hanno diversi gradi di competenza nella produzione di strumenti che consentono loro di adattarsi in modo più efficace a diversi contesti problematici.