Le grandi modelli di linguaggio sono davvero bravi nel generare dati strutturati complessi? Questo articolo AI introduce Struc-Bench valutazione delle capacità di LLM e introduzione di una soluzione di sintonizzazione fine consapevole della struttura.

Gli LLM sono bravi a generare dati strutturati complessi? Questo articolo introduce Struc-Bench per valutare le capacità dei LLM e una soluzione per la sintonizzazione fine della struttura.

I modelli di lingua di grandi dimensioni (LLM) hanno compiuto progressi significativi nelle attività di creazione di testi, tra le altre attività di elaborazione del linguaggio naturale. Uno dei componenti fondamentali della capacità generativa, ovvero la capacità di generare dati strutturati, ha suscitato molta attenzione nella ricerca precedente. Tuttavia, i LLM continuano a ottenere scarsi risultati nella produzione di output strutturati complessi, una competenza cruciale per diverse applicazioni, dalla redazione automatica di rapporti all’assistenza nella scrittura di codice. Inoltre, finora è stata svolta relativamente poca ricerca per valutare la capacità dei LLM di produrre output strutturati; la maggior parte delle valutazioni dei LLM si è concentrata sulla generazione spontanea di testi o codice. Questo solleva il dubbio di quanto bene i LLM possano creare dati strutturati complessi.

Ricercatori dell’Università di Yale, dell’Università di Zhejiang, della New York University e dell’ETH Zurigo si propongono di condurre un’analisi approfondita e affrontare queste questioni aperte nel loro lavoro. In primo luogo, è necessario svolgere una ricerca più completa sulla capacità dei LLM di creare dati strutturati complessi. I tentativi precedenti di valutare i LLM sui dati strutturati si sono concentrati su semplici compiti di estrazione delle informazioni (IE), come l’estrazione di relazioni, il riconoscimento di eventi e l’identificazione di entità nominate. In questo caso, l’obiettivo dei compiti di IE è raccogliere i dati estratti in modo ordinato. I lavori precedenti erano significativamente più incentrati sul compito rispetto ai LLM. Utilizzando modelli pre-addestrati come BART e T5, che producono dati strutturati a partire da testi, l’attenzione principale era rivolta alle problematiche di conversione da testo a dati strutturati. In secondo luogo, è necessario disporre di valutazioni o metriche complete sulle prestazioni dei LLM.

Gli attuali benchmark utilizzano spesso semplici metriche oggettive come l’overlap delle parole per valutare quanto bene i contenuti prodotti dalla macchina siano in grado di categorizzare le informazioni. Potrebbe essere necessario andare oltre per determinare se i LLM sono in grado di fornire output strutturati, poiché una misura di valutazione adeguata dovrebbe tener conto anche del formato delle informazioni prodotte. In terzo luogo, i LLM attuali potrebbero funzionare meglio nel seguire più accuratamente gli input di linguaggio naturale umano e fornire output con formati corretti e contenuti privi di errori? Questo studio cerca di colmare queste lacune nella letteratura e migliorare i set di dati di addestramento e i criteri di valutazione per i LLM che producono output strutturati.

Ecco un elenco dei loro contributi: (1) Hanno creato un benchmark chiamato STRUCBENCH che si concentra sulla produzione di testi strutturati in forma di testo grezzo, HTML e LaTeX. Hanno anche valutato attentamente le capacità dei noti LLM, individuando problemi significativi relativi alla correttezza dei contenuti, alla formattazione, al ragionamento numerico e alla gestione di tabelle lunghe. (2) Hanno effettuato valutazioni empiriche dei noti LLM sul loro benchmark di generazione di testi strutturati, incorporando dataset significativi ed estendendosi a diverse aree, offrendo una conoscenza più approfondita dei tipi di errori comuni e delle dimensioni delle imperfezioni. I loro risultati suggeriscono che GPT-3.5 e GPT-4 abbiano bisogno di aiuto per produrre output correttamente precisi, con problemi che derivano principalmente da contenuti errati, formattazione errata, competenze di ragionamento numerico insufficienti e incapacità di gestire tabelle lunghe. (3) Utilizzano l’ottimizzazione delle istruzioni consapevoli della struttura per risolvere questi problemi, addestrando il modello LLaMA a seguire questi formati dopo aver utilizzato ChatGPT per creare istruzioni di formattazione. I risultati positivi su dati visibili e nascosti suggeriscono che potrebbe migliorare significativamente la capacità dei LLM di fornire output strutturati.