Una nuova ricerca sull’IA presenta un approccio centrato sulla prompt per analizzare le capacità dei grandi modelli di linguaggio (LLMs)
Nuova ricerca sull'IA approccio centrato sulla prompt per analizzare i grandi modelli di linguaggio (LLMs).
L’aumento recente dell’uso dei modelli di lingua di grandi dimensioni (LLM) ha trasformato completamente il campo dell’elaborazione del linguaggio naturale (NLP), soprattutto spingendo i LLM a generare testo aperto. Le applicazioni della generazione di testo aperto sono molteplici, che si estendono a vari domini come la risposta alle domande, la generazione di storie, la generazione di codice, la creatività assistita dall’uomo e il dialogo aperto.
Man mano che questi modelli continuano a crescere, c’è una crescente preoccupazione per l’imprevedibilità di questi sistemi e, quindi, la necessità di una migliore comprensione delle loro capacità e limitazioni.
Ricercatori del Georgia Institute of Technology, della Shanghai Jiao Tong University, di Google e della Stanford University hanno creato una tassonomia delle istruzioni per analizzare la generazione di testo aperto. Hanno sperimentato con 288 istruzioni e valutato oltre 3000 output, analizzando strategie di mitigazione e direzioni future di ricerca.
- Come tracciare e visualizzare gli esperimenti di Machine Learning utilizzando MLflow
- Su cosa ti sei alimentato? Questo modello di intelligenza artificiale può estrarre dati di addestramento dai modelli di diffusione
- Esplorazione della funzione zip() di Python semplificazione dell’iterazione e della combinazione dei dati
Per analizzare le capacità e le limitazioni dei modelli di linguaggio nella generazione di testo aperto, i ricercatori hanno creato una tassonomia dei vincoli individuali basati su come gli utenti pongono naturalmente vincoli nelle istruzioni. Hanno progettato un insieme di istruzioni semplici e naturali come istruzioni di base per ciascun vincolo e le hanno variate per dimensioni come soggetto e modello di istruzione per mitigare la varianza delle istruzioni.
I vincoli nelle istruzioni possono essere classificati in due categorie: vincolo stilistico, che limita lo stile dell’output, come scrivere con uno stile floreale, e vincolo strutturale, che limita la struttura dell’output, come limitare il numero di parole.
I ricercatori hanno creato 288 istruzioni e generato output utilizzando GPT-3, OPT, BLOOM e GLM. Hanno generato dieci output per istruzione per la valutazione. Ad esempio, un’istruzione di base per il vincolo stilistico “umore” è “Scrivi un passaggio sull’amore che fa sentire il lettore [arrabbiato, spaventato, felice, triste].”

Vincoli stilistici
I ricercatori hanno scoperto che GPT-3 ha difficoltà con alcuni vincoli stilistici sfidanti come commedia, satira, ironia e narrativa letteraria ed è sensibile alle combinazioni di stile e soggetto. GPT-3 confonde lo stile con il soggetto quando l’istruzione è troppo impegnativa e ha difficoltà con parole che non sono uniche alla scrittura creativa.
Tuttavia, le prestazioni del modello non sono correlate alla difficoltà dell’istruzione percepita dagli annotatori, indicando che i fattori che contribuiscono alla difficoltà dell’istruzione differiscono tra gli esseri umani e i LLM. Questo mette in evidenza l’importanza di trovare empiricamente quali istruzioni sono impegnative per i LLM e quali no.
Vincoli strutturali
Mentre GPT-3 comprende generalmente i vincoli strutturali nella scrittura, ha difficoltà con i vincoli numerici come il numero di parole o frasi richieste, producendo spesso output simili ma non esatti. Il modello mostra anche una grande varianza nella generazione di testo di lunghezza variabile quando viene istruito con vincoli descrittivi e strutturali come “lungo”.
Inoltre, GPT-3 non riesce a formattare correttamente i documenti accademici, probabilmente a causa della mancanza di etichettatura chiara per tali documenti nei dati di addestramento.
Gli autori hanno utilizzato la loro metodologia per analizzare altri tre LLM, OPT-176B9, BLOOM-176B10 e GLM-130B11, utilizzando le stesse istruzioni e ulteriori istruzioni di vincoli strutturali numerici. Hanno scoperto che questi modelli si comportano peggio di GPT-3, con più della metà dei loro output generati degenerati.
Commenti
L’articolo presenta una metodologia per analizzare la capacità dei modelli di lingua di generare testo aperto con vincoli strutturali e stilistici. I risultati mostrano fallimenti che corrispondono alle sfide dei modelli e nuovi schemi di fallimento in vincoli strutturali e stilistici.
Gli autori forniscono anche mitigazioni che migliorano costantemente le prestazioni in entrambi i domini. L’articolo riconosce alcune limitazioni, incluso il fatto che la tassonomia non copre tutti gli aspetti dei vincoli stilistici e strutturali e non rappresenta tutte le generazioni di testo aperto.
Gli autori evidenziano anche considerazioni etiche, come il potenziale abuso dello stile e il danno agli annotatori, e suggeriscono linee guida per proteggere gli annotatori. Nel complesso, la metodologia e i risultati presentati nell’articolo contribuiscono a comprendere le capacità e le limitazioni dei modelli di linguaggio.