I ricercatori cinesi propongono StructGPT per migliorare la capacità di ragionamento a zero-shot di LLM su dati strutturati.

Chinese researchers propose StructGPT to improve the zero-shot reasoning capability of LLM on structured data.

I modelli di linguaggio di grandi dimensioni (LLM) hanno recentemente compiuto progressi significativi nell’elaborazione del linguaggio naturale (NLP). Le ricerche esistenti hanno dimostrato che i LLM hanno una forte capacità di completare varie attività con l’ausilio di prompt specificamente creati, senza richiedere un addestramento specifico per ogni attività. Nonostante la loro efficacia, secondo le ricerche attuali, i LLM possono produrre informazioni non veritiere in contrasto con la conoscenza fattuale e non riescono a raggiungere una competenza specifica di dominio o in tempo reale. Questi problemi possono essere risolti aggiungendo fonti di conoscenza esterne ai LLM per correggere le informazioni errate.

I dati strutturati, come i database e i grafi di conoscenza, vengono comunemente utilizzati per fornire le conoscenze necessarie ai LLM attraverso varie risorse. Tuttavia, poiché i dati strutturati utilizzano formati o schemi di dati unici a cui i LLM non sono stati esposti durante la pre-elaborazione, potrebbero aver bisogno di aiuto per comprenderli. I dati strutturati, a differenza del testo normale, sono organizzati in modo coerente e seguono un determinato modello di dati. Le tabelle dati sono organizzate come record indicizzati per colonne per righe, mentre i grafi di conoscenza (KG) sono spesso organizzati come triple di fatti che descrivono le relazioni tra entità principali e entità secondarie.

Anche se il volume dei dati strutturati è spesso enorme, è impossibile includere tutti i record di dati nel prompt di input (ad esempio, ChatGPT ha una lunghezza massima del contesto di 4096). La linearizzazione dei dati strutturati in una frase comprensibile per i LLM è una soluzione semplice a questo problema. La tecnica di manipolazione degli strumenti li motiva a migliorare le capacità dei LLM per affrontare le difficoltà sopra menzionate. L’idea fondamentale di questa strategia è utilizzare interfacce specializzate per modificare i record dei dati strutturati (ad esempio, estrarre colonne per le tabelle). Con l’aiuto di queste interfacce, è possibile individuare più precisamente le prove necessarie per completare attività specifiche e limitare con successo l’area di ricerca dei record di dati.

I ricercatori dell’Università Renmin di Cina, del Laboratorio chiave di Pechino per la gestione dei big data e i metodi di analisi e dell’Università di scienza e tecnologia elettroniche della Cina si sono concentrati su questa ricerca per progettare interfacce appropriate per determinate attività e utilizzarle per il ragionamento dei LLM, che sono i due principali problemi da risolvere per applicare il metodo di interfaccia potenziata. In questo modo, i LLM possono prendere decisioni basate sulle evidenze raccolte dalle interfacce. A tal fine, forniscono un metodo di lettura-razionamento iterativo (IRR) chiamato StructGPT in questo studio per risolvere attività basate su dati strutturati. Il loro metodo considera due responsabilità chiave per completare varie attività: raccogliere dati pertinenti (lettura) e assumere la risposta corretta o formulare una strategia per la prossima azione (ragionamento).

Secondo la loro conoscenza, questo è il primo studio che esamina come aiutare i LLM a ragionare su diverse forme di dati strutturati (come tabelle, KG e DB) utilizzando un singolo paradigma. Fondamentalmente, separano i processi di lettura e ragionamento per i LLM: utilizzano interfacce di dati strutturati per ottenere un accesso e un filtraggio precisi ed efficaci dei dati e si affidano alla loro capacità di ragionamento per determinare la prossima mossa o la risposta alla query. Con le interfacce esterne, suggeriscono specificamente un processo di generazione invocante-linearizzazione per aiutare i LLM a comprendere e prendere decisioni sui dati strutturati. Ripetendo questo processo con le interfacce fornite, possono avvicinarsi gradualmente alla risposta desiderata a una query.

Hanno effettuato test completi su varie attività (come la risposta alle domande basata su KG, la risposta alle domande basata su tabelle e il testo in SQL basato su DB) per valutare l’efficacia della loro tecnica. I risultati sperimentali su otto set di dati mostrano che il loro metodo suggerito può migliorare significativamente le prestazioni di ragionamento di ChatGPT sui dati strutturati, anche a livello di approcci di addestramento supervisionato con dati completi concorrenti.

• KGQA. Il loro metodo porta a un aumento dell’11,4% di Hits@1 su WebQSP per la sfida KGQA. Con l’aiuto del loro metodo, le prestazioni di ChatGPT nei set di dati KGQA multi-hop (come MetaQA-2hop e MetaQA-3hop) possono migliorare fino al 62,9% e al 37,0%, rispettivamente.

• QA Table. Nella sfida TableQA, il loro metodo aumenta l’accuratezza della denotazione di circa il 3% al 5% in WTQ e WikiSQL rispetto all’utilizzo diretto di ChatGPT. In TabFact, il loro metodo aumenta l’accuratezza nella verifica dei fatti delle tabelle del 4,2%.

• Testo a SQL. Nella sfida Testo-a-SQL, il loro metodo aumenta l’accuratezza di esecuzione su tre set di dati di circa il 4% rispetto all’utilizzo diretto di ChatGPT.

Gli autori hanno rilasciato il codice per Spider e TabFact, che possono aiutare a comprendere il framework di StructGPT, e l’intera base di codice deve ancora essere rilasciata.