Incontra ToolQA Un nuovo dataset che valuta la capacità dei grandi modelli di linguaggio (LLM) di utilizzare strumenti esterni per rispondere alle domande.
ToolQA è un nuovo dataset per valutare l'abilità dei grandi modelli di linguaggio nell'utilizzare strumenti esterni per rispondere alle domande.
I modelli di linguaggio di grandi dimensioni (LLM) si sono dimostrati molto efficaci nei campi dell’Elaborazione del Linguaggio Naturale (NLP) e della Comprensione del Linguaggio Naturale (NLU). Famosi LLM come GPT, BERT, PaLM, ecc., vengono utilizzati dai ricercatori per fornire soluzioni in ogni settore, dalla formazione e dai social media alla finanza e all’assistenza sanitaria. Essendo addestrati su enormi quantità di dati, questi LLM acquisiscono una vasta quantità di conoscenze. I LLM hanno dimostrato capacità nel question-answering, nella generazione di contenuti, nella sintesi del testo, nella traduzione delle lingue, ecc. Nonostante i LLM abbiano mostrato capacità impressionanti di recente, ci sono state difficoltà nel produrre informazioni plausibili e senza allucinazioni e debolezze nel ragionamento numerico.
Ricerche recenti hanno dimostrato che l’integrazione di strumenti esterni, tra cui l’aumento del recupero, gli strumenti matematici e gli interpreti di codice, è un approccio migliore per superare le sfide sopra descritte. Valutare l’efficacia di questi strumenti esterni presenta difficoltà, poiché le attuali metodologie di valutazione hanno bisogno di aiuto per determinare se il modello sta semplicemente richiamando informazioni pre-addestrate o sta effettivamente utilizzando strumenti esterni per la risoluzione dei problemi. Per superare queste limitazioni, un team di ricercatori del College of Computing, Georgia Institute of Technology e Atlanta, GA, ha introdotto ToolQA, una benchmark per il question-answering che valuta la competenza dei LLM nell’utilizzo di risorse esterne.
ToolQA è composto da dati provenienti da otto domini e definisce 13 tipi di strumenti che possono acquisire informazioni da corpora di riferimento esterni. Ogni istanza di ToolQA include una domanda, una risposta, corpora di riferimento e un elenco di strumenti disponibili. L’unicità di ToolQA risiede nel fatto che tutte le domande possono essere risposte solo utilizzando gli strumenti appropriati per estrarre informazioni dal corpus di riferimento, riducendo così al minimo la possibilità che i LLM rispondano alle domande basandosi esclusivamente sulla conoscenza interna e consentendo una valutazione fedele delle loro capacità di utilizzo degli strumenti.
- Come costruire una piattaforma di analisi semi-strutturata in streaming su Snowflake
- Conquistare i tentativi in Python utilizzando Tenacity un tutorial completo
- La Data Science è una buona carriera?
ToolQA comprende tre fasi automatizzate: Raccolta dei Dati di Riferimento, Generazione delle Domande Guidata dall’Uomo e Generazione delle Risposte Programmatica. Nella prima fase, vengono raccolti vari tipi di corpora pubblici, tra cui testi, tabelle e grafici, provenienti da diversi domini e che fungono da corpora di riferimento per il question-answering basato sugli strumenti. Nella seconda fase, vengono create domande che possono essere risolte solo con l’aiuto degli strumenti anziché dei corpora di riferimento. Ciò avviene tramite un metodo di generazione delle domande basato su modelli, che coinvolge anche l’istanziazione delle domande con attributi degli strumenti e la produzione e validazione di modelli guidati dall’uomo. La terza fase produce risposte accurate per le domande generate, vengono implementati operatori corrispondenti agli strumenti e le risposte vengono ottenute in modo programmatico dai corpora di riferimento.
Il team ha condotto esperimenti utilizzando sia LLM standard che LLM potenziati dagli strumenti per rispondere alle domande in ToolQA. I risultati hanno mostrato che i LLM che si basano solo sulla conoscenza interna, come ChatGPT e Chain-of-thoughts prompting, hanno basse percentuali di successo, circa il 5% per le domande facili e il 2% per quelle difficili. D’altra parte, i LLM potenziati dagli strumenti come Chameleon e ReAct hanno ottenuto risultati migliori utilizzando strumenti esterni, con le migliori performance raggiunte dai LLM potenziati dagli strumenti che sono state del 43,15% per le domande facili e del 8,2% per le domande difficili.
I risultati e l’analisi degli errori mostrano che ToolQA è una benchmark difficile per gli attuali approcci di LLM potenziati dagli strumenti, in particolare per i problemi difficili che richiedono un ragionamento composito degli strumenti più complesso. È un’aggiunta promettente agli sviluppi nell’IA.