Una nuova ricerca sull’IA presenta un approccio centrato sulla prompt per analizzare le capacità dei grandi modelli di linguaggio (LLMs)

Nuova ricerca sull'IA approccio centrato sulla prompt per analizzare i grandi modelli di linguaggio (LLMs).

L’aumento recente dell’uso dei modelli di lingua di grandi dimensioni (LLM) ha trasformato completamente il campo dell’elaborazione del linguaggio naturale (NLP), soprattutto spingendo i LLM a generare testo aperto. Le applicazioni della generazione di testo aperto sono molteplici, che si estendono a vari domini come la risposta alle domande, la generazione di storie, la generazione di codice, la creatività assistita dall’uomo e il dialogo aperto.

Man mano che questi modelli continuano a crescere, c’è una crescente preoccupazione per l’imprevedibilità di questi sistemi e, quindi, la necessità di una migliore comprensione delle loro capacità e limitazioni.

Ricercatori del Georgia Institute of Technology, della Shanghai Jiao Tong University, di Google e della Stanford University hanno creato una tassonomia delle istruzioni per analizzare la generazione di testo aperto. Hanno sperimentato con 288 istruzioni e valutato oltre 3000 output, analizzando strategie di mitigazione e direzioni future di ricerca.

Per analizzare le capacità e le limitazioni dei modelli di linguaggio nella generazione di testo aperto, i ricercatori hanno creato una tassonomia dei vincoli individuali basati su come gli utenti pongono naturalmente vincoli nelle istruzioni. Hanno progettato un insieme di istruzioni semplici e naturali come istruzioni di base per ciascun vincolo e le hanno variate per dimensioni come soggetto e modello di istruzione per mitigare la varianza delle istruzioni.

I vincoli nelle istruzioni possono essere classificati in due categorie: vincolo stilistico, che limita lo stile dell’output, come scrivere con uno stile floreale, e vincolo strutturale, che limita la struttura dell’output, come limitare il numero di parole.

I ricercatori hanno creato 288 istruzioni e generato output utilizzando GPT-3, OPT, BLOOM e GLM. Hanno generato dieci output per istruzione per la valutazione. Ad esempio, un’istruzione di base per il vincolo stilistico “umore” è “Scrivi un passaggio sull’amore che fa sentire il lettore [arrabbiato, spaventato, felice, triste].”

Fonte: https://github.com/SALT-NLP/Bound-Cap-LLM

Vincoli stilistici

I ricercatori hanno scoperto che GPT-3 ha difficoltà con alcuni vincoli stilistici sfidanti come commedia, satira, ironia e narrativa letteraria ed è sensibile alle combinazioni di stile e soggetto. GPT-3 confonde lo stile con il soggetto quando l’istruzione è troppo impegnativa e ha difficoltà con parole che non sono uniche alla scrittura creativa.

Tuttavia, le prestazioni del modello non sono correlate alla difficoltà dell’istruzione percepita dagli annotatori, indicando che i fattori che contribuiscono alla difficoltà dell’istruzione differiscono tra gli esseri umani e i LLM. Questo mette in evidenza l’importanza di trovare empiricamente quali istruzioni sono impegnative per i LLM e quali no.

Vincoli strutturali

Mentre GPT-3 comprende generalmente i vincoli strutturali nella scrittura, ha difficoltà con i vincoli numerici come il numero di parole o frasi richieste, producendo spesso output simili ma non esatti. Il modello mostra anche una grande varianza nella generazione di testo di lunghezza variabile quando viene istruito con vincoli descrittivi e strutturali come “lungo”.

Inoltre, GPT-3 non riesce a formattare correttamente i documenti accademici, probabilmente a causa della mancanza di etichettatura chiara per tali documenti nei dati di addestramento.

Gli autori hanno utilizzato la loro metodologia per analizzare altri tre LLM, OPT-176B9, BLOOM-176B10 e GLM-130B11, utilizzando le stesse istruzioni e ulteriori istruzioni di vincoli strutturali numerici. Hanno scoperto che questi modelli si comportano peggio di GPT-3, con più della metà dei loro output generati degenerati.

Commenti

L’articolo presenta una metodologia per analizzare la capacità dei modelli di lingua di generare testo aperto con vincoli strutturali e stilistici. I risultati mostrano fallimenti che corrispondono alle sfide dei modelli e nuovi schemi di fallimento in vincoli strutturali e stilistici.

Gli autori forniscono anche mitigazioni che migliorano costantemente le prestazioni in entrambi i domini. L’articolo riconosce alcune limitazioni, incluso il fatto che la tassonomia non copre tutti gli aspetti dei vincoli stilistici e strutturali e non rappresenta tutte le generazioni di testo aperto.

Gli autori evidenziano anche considerazioni etiche, come il potenziale abuso dello stile e il danno agli annotatori, e suggeriscono linee guida per proteggere gli annotatori. Nel complesso, la metodologia e i risultati presentati nell’articolo contribuiscono a comprendere le capacità e le limitazioni dei modelli di linguaggio.