Ricercatori di Stanford introducono Gisting una nuova tecnica per la compressione efficiente delle prompt nei modelli di linguaggio.
Ricercatori di Stanford introducono Gisting, una tecnica per la compressione efficiente delle prompt nei modelli di linguaggio.
La specializzazione del modello consiste nell’adattare un modello di apprendimento automatico pre-addestrato a un compito o dominio specifico. Nei modelli di linguaggio (LM), la specializzazione del modello è cruciale per migliorare le loro prestazioni in vari compiti come la sintesi, la risposta alle domande, la traduzione e la generazione del linguaggio. I due processi principali per specializzare un modello di linguaggio per compiti specifici sono il fine-tuning delle istruzioni (adattamento di un modello pre-addestrato a un nuovo compito o insieme di compiti) e la distillazione del modello (trasferimento di conoscenza da un modello pre-addestrato, “modello insegnante”, a un modello più piccolo e specializzato, “modello studente”). Il prompting è un concetto chiave nel campo della specializzazione di LM, poiché fornisce un modo per guidare il modello verso comportamenti specifici, consente un uso più efficiente dei dati di addestramento limitati ed è fondamentale per raggiungere prestazioni all’avanguardia. La compressione delle istruzioni è una tecnica in fase di studio con la speranza di ottenere risparmi significativi in termini di calcolo, memoria e archiviazione senza una diminuzione sostanziale delle prestazioni complessive o della qualità dell’output.
Questo articolo, presentato da ricercatori dell’Università di Stanford, propone una nuova tecnica di compressione delle istruzioni chiamata gisting, che addestra un LM a comprimere le istruzioni in insiemi più piccoli di token “gist”. Per ridurre il costo dell’istruzione, possono essere utilizzate tecniche come il fine-tuning o la distillazione per addestrare un modello che si comporterebbe come quello originale senza l’istruzione, ma in quel caso il modello dovrebbe essere riaddestrato per ogni nuova istruzione, il che è lontano dall’essere ideale. L’idea alla base del gisting, tuttavia, è quella di utilizzare un approccio di meta-apprendimento per prevedere i token gist da un’istruzione che non richiederebbe di riaddestrare il modello per ogni compito e consentirebbe la generalizzazione a istruzioni non viste senza addestramento aggiuntivo. Ciò comporterebbe una riduzione dei costi computazionali e consentirebbe di comprimere, memorizzare nella cache e riutilizzare un’istruzione per una maggiore efficienza del calcolo. Consentirebbe inoltre agli utenti di inserire più contenuti nella finestra di contesto limitata.
Gli autori hanno sperimentato un modo semplice per ottenere un tale modello: hanno utilizzato il LM stesso (sfruttando le sue conoscenze preesistenti) per prevedere i token gist durante il fine-tuning delle istruzioni modificando le maschere di attenzione del Transformer. Dato una coppia (compito, input), aggiungono i token gist tra il compito e l’input e impostano la maschera di attenzione nel seguente modo: i token di input dopo i token gist non possono fare attenzione a nessuno dei token dell’istruzione prima dei token gist (ma possono fare attenzione ai token gist). Dato che l’input e l’output non possono fare attenzione all’istruzione, ciò costringe il modello a comprimere le informazioni dall’istruzione nei token gist intermedi. Per addestrare i modelli di gist, hanno avuto bisogno di un dataset con una grande varietà di compiti, quindi hanno creato un dataset che hanno chiamato Alpaca+, che ha combinato i dati di due dataset esistenti di addestramento delle istruzioni (Standford Alpaca e Self-Instruct) che hanno totalizzato più di 130.000 esempi. Hanno quindi tenuto da parte 3 divisioni di validazione per poter validare il modello dopo l’addestramento che aveva istruzioni Viste, Non Viste e Umane fatte a mano. In questo modo, sono stati in grado di testare la generalizzazione a istruzioni non viste, con la divisione Umana che rappresenta una sfida di generalizzazione ancora più forte. Hanno anche utilizzato più architetture di LM (in particolare LLaMA-7Bm, un modello solo decoder in stile GPT, e FLAN-T5-XXL) e hanno addestrato modelli di gist con un numero variabile di token gist (1, 2, 5 o 10). Tuttavia, i risultati hanno mostrato che i modelli erano generalmente insensibili al numero di token gist, in alcuni casi mostrando addirittura che un numero maggiore di token era effettivamente dannoso per le prestazioni. Hanno quindi utilizzato un singolo modello di gist per il resto degli esperimenti.
- Ricercatori di Meta AI e dell’Università di Cambridge esaminano come i Large Language Models (LLM) possano essere sollecitati con abilità di riconoscimento del linguaggio parlato
- Dr. Eva-Marie Muller-Stuler sull’importanza di adottare pratiche etiche di Intelligenza Artificiale e Data Science
- Il Futuro dello Sviluppo Web Previsioni e Possibilità
Per valutare la qualità della compressione delle istruzioni, hanno calibrato le prestazioni rispetto a un controllo positivo, che era effettivamente un normale fine-tuning delle istruzioni, che forniva un limite superiore delle prestazioni, e un controllo negativo in cui il modello non avrebbe avuto accesso all’istruzione affatto, risultando in token gist casuali, che fornivano un limite inferiore delle prestazioni. Per confrontare gli output dei loro modelli con il controllo positivo e misurare un tasso di vittoria rispetto ad esso, hanno chiesto a ChatGPT di scegliere quale risposta fosse migliore, spiegando il suo ragionamento. Hanno anche utilizzato una semplice statistica di sovrapposizione lessicale chiamata ROUGE-L (una metrica che misura le somiglianze tra il testo generato e le istruzioni scritte dall’uomo nel fine-tuning delle istruzioni aperte). Un tasso di vittoria del 50% indica che il modello ha una qualità comparabile a un modello che non esegue la compressione delle istruzioni.
I risultati hanno mostrato che sulle istruzioni viste, i modelli di intuizione si sono comportati molto vicini ai modelli di controllo positivi, con una percentuale di vittorie del 48,6% (LLaMA) e del 50,8% (FLAN-T5). Inoltre, hanno dimostrato che i modelli di intuizione avevano generalizzazioni competitive per le prompt non viste, con una percentuale di vittorie del 49,7% (LLaMA) e del 46,2% (FLAN-T5). Solo nel caso più sfidante di divisione umana hanno registrato leggeri cali nelle percentuali di vittoria (ma comunque competitive), con il 45,8% (LLaMA) e il 42,5% (FLAN-T5). Le performance leggermente peggiori del FLAN-T5 e i casi particolari di fallimento hanno portato a formulare ipotesi da testare in futuri articoli.
I ricercatori hanno anche indagato i potenziali guadagni di efficienza che possono essere ottenuti tramite l’intuizione, che è stata la motivazione principale dello studio. I risultati sono stati molto incoraggianti, con la memorizzazione delle intuizioni che ha portato a una riduzione del 40% delle FLOP e a un tempo di clock inferiore del 4-7% rispetto ai modelli non ottimizzati. Sebbene questi miglioramenti siano stati riscontrati in misura minore per i modelli di linguaggio basati solo sul decodificatore, i ricercatori hanno dimostrato anche che i modelli di intuizione consentono una compressione di 26 volte delle prompt non viste, fornendo uno spazio considerevole aggiuntivo nella finestra di contesto di input.
Nel complesso, questi risultati illustrano il significativo potenziale dell’intuizione per migliorare sia l’efficacia che l’efficienza dei modelli di linguaggio specializzati. Gli autori suggeriscono anche diverse direzioni promettenti per lavori di approfondimento sull’intuizione. Ad esempio, sostengono che i maggiori guadagni di calcolo ed efficienza dall’intuizione derivino dalla compressione di prompt più lunghi e che la “preparazione delle intuizioni” potrebbe migliorare le prestazioni di compressione imparando prima a comprimere porzioni arbitrarie di linguaggio naturale prima di apprendere la compressione delle prompt.