Una nuova ricerca sull’IA introduce il Directional Stimulus Prompting (DSP) un nuovo framework di istruzioni per guidare meglio l’LLM nella generazione del riassunto desiderato

Nuova ricerca sull'IA introduce il Directional Stimulus Prompting (DSP), un framework per guidare l'LLM nella generazione del riassunto desiderato.

Il processing del linguaggio naturale (NLP) ha visto un cambiamento di paradigma negli ultimi anni, con l’avvento dei Large Language Models (LLM) che superano i precedenti Language Models (LM) relativamente piccoli come GPT-2 e T5 Raffel et al. in una varietà di compiti NLP. Il prompting è il metodo de facto per utilizzare i LLM per svolgere vari compiti, utilizzando istruzioni in linguaggio naturale nel contesto per indirizzare i LLM a produrre output desiderati senza aggiornamenti dei parametri, a differenza del paradigma di fine tuning convenzionale in cui i parametri dei LM possono essere aggiornati per ogni compito downstream.

Sebbene questo schema di prompting abbia permesso ai LLM di ottenere buoni risultati in vari compiti in un ambiente zero-shot o few-shot, le loro prestazioni in alcuni specifici compiti downstream necessitano ancora di miglioramenti e richiedono un ulteriore affinamento, specialmente quando sono disponibili dati di addestramento. Tuttavia, poiché la maggior parte dei LLM offre solo API di inferenza a scatola nera e sono costosi da affinare, la maggior parte degli utenti e degli accademici non può ottimizzare direttamente questi LLM. Pertanto, un argomento difficile che deve essere risolto è come migliorare efficacemente le prestazioni dei LLM su determinati compiti downstream, a volte con un numero limitato di istanze di addestramento. Uno nuovo studio dell’Università della California, Santa Barbara e di Microsoft propone l’architettura Directional Stimulus Prompting (DSP) che migliora il LLM a scatola nera congelato su compiti downstream utilizzando un piccolo LM accordabile (RL).

Fonte: https://arxiv.org/pdf/2302.11520.pdf | Figura 1: Confronto del tempo impiegato per il compito di sintesi utilizzando l’approccio di prompting usuale e il nostro suggerito Directional Stimulus Prompting. Il nostro DSP utilizza un LM di politica accordabile per generare il stimulus, che in questo esempio sono parole chiave e quindi guida il LLM a fornire il riassunto desiderato con punteggi migliori o altre metriche come la preferenza umana (evidenziato in blu).

Per essere più precisi, per ogni testo di input, un piccolo LM (chiamato LM di politica) impara a fornire una serie di token discreti come stimulus diretto, che potrebbero offrire certe informazioni o istruzioni sul campione di input invece di un suggerimento generico per il compito. Per indirizzare la creazione del LLM verso l’obiettivo desiderato, come punteggi di misura delle prestazioni migliori, lo stimulus creato viene quindi mescolato con l’input originale e fornito al LLM. Inizialmente utilizzano un fine tuning supervisionato (SFT) con un LM pre-addestrato utilizzando un piccolo numero di campioni di addestramento raccolti. L’addestramento mira a massimizzare la ricompensa, definita come i punteggi sulle misure di prestazione downstream della generazione del LLM in base allo stimulus prodotto dal LM di politica. Dopo ulteriori ottimizzazioni per esplorare stimoli migliori, il LM raffinato inizializza il LM di politica in RL.

La Figura 1 rappresenta un esempio del compito di sintesi. Per aiutare il LLM a produrre il riassunto richiesto in base alle parole chiave, le parole chiave agiscono come stimulus (suggerimenti). Il LM di politica può essere ottimizzato utilizzando punteggi metrici di valutazione come ROUGE come incentivo, incoraggiandolo a fornire parole chiave che guidano il LLM a produrre riassunti migliori. Mentre i LLM hanno ottime capacità di generazione, spesso mostrano comportamenti indesiderati, che richiedono una guida dettagliata sulla caratteristica di generazione e la direzione desiderata per determinati compiti downstream. Questa è la base del loro approccio proposto. Il piccolo LM di politica può produrre una serie di token come stimulus diretto per fornire una guida dettagliata campione per campione al LLM verso l’obiettivo desiderato, ma non può produrre testi simili al linguaggio umano.

RL offre una soluzione naturale per colmare il divario tra l’oggetto ottimizzato (ad es. il piccolo LM di politica che genera lo stimulus) e l’obiettivo di ottimizzazione definito dalla generazione del LLM, a differenza degli studi precedenti che trovano prompt ottimali tramite ingegneria/ottimizzazione del prompt, che cerca di spiegare la “domanda” in modo più chiaro. Il loro approccio cerca di fornire “suggerimenti” o “indizi” per ogni “domanda”. Si differenzia anche dal prompting di catena di pensiero che incoraggia il LLM a generare passaggi intermedi di ragionamento nella risoluzione di compiti di ragionamento. Il loro approccio utilizza un piccolo modello accordabile per controllare e guidare il LLM e si concentra sui compiti di generazione in cui non c’è una sola “risposta” corretta. Valutano il loro framework su compiti di sintesi e generazione di risposte al dialogo.

Il piccolo modello di linguaggio che crea stimolazione, ad esempio, è un oggetto ottimizzato, ma la produzione del LLM determina l’obiettivo di ottimizzazione. RL fornisce un modo semplice per colmare questa lacuna. A differenza delle indagini precedenti, questa cerca di chiarire la “domanda” utilizzando l’ingegneria o l’ottimizzazione delle istruzioni. La loro strategia fa uno sforzo per offrire “suggerimenti” o “indizi” per ogni “domanda”. Inoltre, si differenzia dal prompting basato su catena di pensiero, che incoraggia la Mente a produrre passaggi intermedi di ragionamento da sola durante il completamento di compiti che richiedono logica. Il loro metodo si concentra sui lavori di generazione con più di una “risposta” valida e utilizza un modello semplice e regolabile per regolare e dirigere il LLM. Per gli incarichi che richiedono lo sviluppo di risposte e riassunti di discussione, valutano il loro framework. Effettuano test utilizzando il Flan-T5-large da 750M per stabilire il policy LM e il Codex da 175B come LLM. Secondo i risultati dei test, quando Codex si basa sulle indicazioni prodotte dal T5 modificato, le sue prestazioni sui compiti successivi migliorano in modo significativo. Le parole chiave che il riassunto dovrebbe contenere vengono utilizzate come stimoli direzionali per il compito di riassumere. Le prestazioni di Codex possono già essere migliorate del 7,2% utilizzando T5, che è stato addestrato utilizzando 2.000 campioni provenienti dal dataset CNN/Daily Mail.

Per sviluppare atti di conversazione che specificano il significato inteso dietro le risposte target per 500 dialoghi del dataset MultiWOZ, addestrano il policy LM. Le prestazioni di Codex aumentano del 52,5% nel punteggio totale grazie alle azioni di dialogo prodotte dal policy LM. Si comporta allo stesso livello o meglio dei sistemi precedenti addestrati con dati di addestramento completi (8.438 dialoghi).