Gorilla – Migliorare la capacità dei grandi modelli di linguaggio nell’utilizzo delle chiamate API

Gorilla - Migliorare i grandi modelli di linguaggio nell'uso delle API

Foto di Valentin Jorel su Unsplash

Un modello basato su LLaMA per migliorare l’accuratezza e l’adattabilità delle chiamate API di LLMs

Introduzione

I Large Language Models sono limitati nella quantità di informazioni che possono catturare nei loro pesi, e inoltre, hanno un contesto limitato. Pertanto, le persone hanno iniziato a sviluppare metodi per aumentare le capacità di questi LLM consentendo loro di accedere a risorse esterne tramite chiamate API. Ad esempio, un LLM potrebbe non avere alcuna informazione su un evento che è avvenuto di recente, ma con una semplice chiamata API a Wikipedia potrebbe apprendere di tale evento e rispondere a domande.

(Immagine dell'autore)

Molti sviluppatori stanno creando strumenti che permettono ai LLM di fare esattamente questo, e un modo semplice per utilizzare questo tipo di strumenti è sfruttare librerie come Langchain🦜️🔗 .

Langchain ti permette di istanziare Agenti, che non sono altro che LLM che decidono quale strumento utilizzare per risolvere un determinato compito. Purtroppo, però, il numero di strumenti all’interno di Langchain è limitato.

Ciò che vogliamo è avere un modello che abbia accesso a milioni di API e che ci permetta di utilizzare la giusta API al momento giusto.

Ad esempio, un input prompt di un tale modello potrebbe essere:

Aiutami a trovare un’API per convertire il linguaggio parlato in un audio registrato in testo utilizzando Torch Hub.

Dato questo prompt, il modello deve capire cosa viene richiesto, quale API utilizzare e quale sia l’input richiesto per chiamare questa API.

Gli autori dell’articolo “Gorilla: Large Language Model Connected with Massive APIs” hanno creato un dataset API a questo scopo. Infatti, l’articolo introduce APIBench, un dataset completo che consiste nelle API di HuggingFace, TorchHub e TensorHub, per valutare le capacità del modello.

Il modello di base LlaMA è stato sottoposto a fine-tuning su questo dataset API. Il dataset è composto dalle API e dalle istruzioni su come utilizzare queste API. È stata utilizzata un’approccio di istruzioni autogenerate, mediante…