Sappiamo che gli LLM possono utilizzare strumenti, ma sapevi che possono anche creare nuovi strumenti? Incontra gli LLM come produttori di strumenti (LATM) un sistema a ciclo chiuso che consente agli LLM di creare i propri strumenti riutilizzabili.

Gli LLM possono creare strumenti riutilizzabili come produttori di strumenti (LATM) in un sistema a ciclo chiuso.

I modelli linguistici di grandi dimensioni (LLM) si sono distinti in una vasta gamma di compiti di elaborazione del linguaggio naturale (NLP) e hanno mostrato prove incoraggianti di raggiungere alcune caratteristiche dell’intelligenza artificiale generale. Ricerche recenti hanno anche rivelato la possibilità di integrare LLM con strumenti esterni, aumentando notevolmente le loro capacità di risoluzione dei problemi e l’efficienza, in modo simile a come si è evoluta l’intelligenza umana. Tuttavia, la disponibilità di strumenti appropriati è un determinante importante di quanto questi procedimenti basati sugli strumenti siano applicabili. Secondo gli insegnamenti tratti da questi traguardi, la capacità delle persone di creare i propri strumenti per risolvere nuovi problemi è stato un punto di svolta significativo nello sviluppo umano. 

In questo studio, ricercatori di Google Deepmind, Princeton University e Stanford University applicano questa concezione evolutiva al campo dei LLM, che è motivata dall’importanza della creazione di strumenti per gli esseri umani. Il sistema che propongono, chiamato LLM come costruttori di strumenti (LATM), consente ai LLM di creare i propri strumenti riutilizzabili per assumere nuove responsabilità. La loro strategia è composta da due fasi cruciali: 1) creazione di strumenti: un LLM, spesso chiamato costruttore di strumenti, crea strumenti (implementati come funzioni Python), specialmente per un lavoro specifico. 2) applicazione degli strumenti: un secondo LLM, chiamato utente di strumenti, che potrebbe essere la stessa persona che ha creato lo strumento, applica gli strumenti per affrontare nuove richieste. Grazie al design a due fasi, LATM può assegnare il lavoro al LLM più qualificato in ogni passaggio. 

In particolare, un modello potente ma intensivo in termini di risorse (come GPT-4) può modellare il processo competente di creazione di strumenti. D’altra parte, un modello leggero ed economico (come GPT-3.5 Turbo) può essere attribuito al procedimento di utilizzo degli strumenti, che è significativamente più semplice. Questo metodo riduce notevolmente il costo medio di elaborazione di diversi lavori migliorando al contempo le capacità di risoluzione dei problemi dei LLM. Per una determinata capacità, la procedura di creazione degli strumenti deve essere eseguita solo una volta. Pertanto, gli strumenti prodotti possono essere applicati a diverse istanze di compiti. 

Questo metodo fornisce un’alternativa scalabile ed economica per affrontare problemi complessi. Pensiamo a uno scenario in cui un utente chiede al LLM di organizzare una riunione che funzioni per tutti (ad esempio, attraverso scambi di email). I problemi di ragionamento aritmetico complessi sono spesso difficili da risolvere per macchine leggere come GPT-3.5 Turbo. Modelli più potenti, come GPT-4, tuttavia, possono comunque ottenere le risposte corrette pur avendo costi di inferenza significativamente più alti. Utilizzando un modello potente ma costoso come costruttore di strumenti e passandolo a un modello economico come utente di strumenti, LATM supera questi ostacoli. Dopo che lo strumento è stato creato, l’utente può utilizzare lo strumento per svolgere il lavoro in modo rapido ed efficace. 

https://arxiv.org/abs/2305.17126

Questo paradigma può anche essere utilizzato per affrontare giochi ben noti come il Sudoku del 24 e lavori ripetitivi in altri processi come l’analisi e l’elaborazione di articoli online in determinati formati di dati o la creazione di piani di routing che soddisfano vari requisiti specializzati. Aggiungono anche il dispatcher, un altro LLM leggero, che decide se un problema in arrivo può essere risolto con strumenti già esistenti o se è necessario sviluppare un nuovo strumento. Questo conferisce all’architettura un grado aggiuntivo di dinamicità e consente la creazione e l’utilizzo in tempo reale degli strumenti. I loro test dimostrano l’efficacia di questa strategia su una varietà di problemi complessi di Big-Bench e compiti di pensiero complicati in generale. 

I risultati dimostrano che LATM può funzionare altrettanto bene dei modelli più intensivi in termini di risorse, pur avendo un costo più ragionevole. Questo approccio unico ai LLM, che imita il salto evolutivo degli esseri umani nella generazione e nell’utilizzo degli strumenti, offre interessanti possibilità per una società in via di sviluppo che utilizza strumenti generati da LLM.