I ricercatori dell’UC Berkeley presentano Gorilla un modello basato su LLaMA ottimizzato che supera GPT-4 nella scrittura di chiamate API.

I ricercatori dell'UC Berkeley presentano Gorilla, un modello basato su LLaMA che supera GPT-4 nella scrittura di chiamate API.

Una recente svolta nel campo dell’Intelligenza Artificiale è l’introduzione dei Grandi Modelli di Linguaggio (LLMs). Questi modelli ci permettono di comprendere il linguaggio in modo più conciso e, di conseguenza, di fare il miglior uso del Natural Language Processing (NLP) e del Natural Language Understanding (NLU). Questi modelli si comportano bene in ogni altra attività, inclusa la sintesi del testo, la risposta alle domande, la generazione di contenuti, la traduzione del linguaggio e così via. Essi comprendono testi complessi, anche testi con ragionamento e logica, e identificano modelli e relazioni tra i dati.

Nonostante i modelli di linguaggio abbiano dimostrato una performance incredibile e si siano sviluppati notevolmente di recente dimostrando la loro competenza in una varietà di compiti, rimane ancora difficile per loro utilizzare gli strumenti tramite chiamate API in modo efficiente. Anche famosi LLM come GPT-4 faticano a generare argomenti di input precisi e raccomandano frequentemente chiamate API inappropriate. Per affrontare questo problema, i ricercatori di Berkeley e Microsoft Research hanno proposto Gorilla, un modello basato su LLaMA finetuned che supera GPT-4 in termini di produzione di chiamate API. Gorilla aiuta a scegliere l’API appropriata, migliorando la capacità dei LLM di lavorare con strumenti esterni per svolgere attività specifiche.

Il team di ricercatori ha anche creato un dataset APIBench, composto da un ampio corpus di API con funzionalità sovrapposte. Il dataset è stato creato raccogliendo hub di modelli pubblici come TorchHub, TensorHub e HuggingFace per le loro API di apprendimento automatico. Per ogni API è inclusa ogni richiesta API da TorchHub e TensorHub, e vengono scelti i primi 20 modelli da HuggingFace per ogni categoria di attività. Inoltre, vengono prodotti dieci prompt di query utente fittizie per ogni API utilizzando il metodo self-instruct.

Utilizzando questo dataset APIBench e il recupero dei documenti, i ricercatori hanno finetuned Gorilla. Gorilla, il modello con 7 miliardi di parametri, supera GPT-4 in termini di correttezza del funzionamento dell’API e riduce gli errori di allucinazione. L’integrazione efficace del recupero dei documenti con Gorilla dimostra la possibilità per i LLM di utilizzare gli strumenti in modo più preciso. Le migliorate capacità di generazione di chiamate API di Gorilla e la sua capacità di modificare la documentazione se necessario migliorano l’applicabilità e l’affidabilità dei risultati del modello. Questo sviluppo è importante perché consente ai LLM di tenersi aggiornati con la documentazione regolarmente aggiornata, fornendo agli utenti informazioni più accurate e attuali.

Uno degli esempi condivisi dai ricercatori mostra come Gorilla riconosca correttamente le attività e offra risultati API completamente qualificati. Le chiamate API generate dai modelli hanno mostrato che GPT-4 produce richieste API per modelli ipotetici, il che dimostra una mancanza di comprensione del compito. Claude ha scelto la libreria sbagliata, mostrando una mancanza di capacità di riconoscere le risorse corrette. Gorilla, al contrario, ha riconosciuto correttamente il compito. Gorilla si differenzia quindi da GPT-4 e Claude poiché la creazione delle chiamate API è accurata, dimostrando sia una prestazione migliorata che una comprensione del compito.

In conclusione, Gorilla è un’importante aggiunta alla lista dei modelli di linguaggio, in quanto affronta anche il problema della scrittura delle chiamate API. Le sue capacità consentono di ridurre i problemi legati all’allucinazione e all’affidabilità.