L’ottimizzazione dei simboli migliora l’apprendimento in contesto nei modelli di linguaggio

L'ottimizzazione dei simboli migliora l'apprendimento nel contesto dei modelli di linguaggio.

Pubblicato da Jerry Wei, Ricercatore Studente, e Denny Zhou, Scienziato Principale, Google Research

Una caratteristica chiave dell’intelligenza umana è che gli esseri umani possono imparare a svolgere nuovi compiti ragionando utilizzando solo pochi esempi. L’ampliamento dei modelli di linguaggio ha aperto nuove applicazioni e paradigmi nell’apprendimento automatico, incluso la capacità di eseguire compiti di ragionamento complessi tramite apprendimento in contesto. Tuttavia, i modelli di linguaggio sono ancora sensibili al modo in cui vengono forniti gli input, il che indica che non ragionano in modo robusto. Ad esempio, i modelli di linguaggio spesso richiedono un’ingegneria pesante degli input o la formulazione dei compiti come istruzioni, e mostrano comportamenti imprevisti come la performance dei compiti che non viene influenzata nemmeno quando vengono mostrate etichette errate.

In “Symbol tuning improves in-context learning in language models” (Il tuning dei simboli migliora l’apprendimento in contesto nei modelli di linguaggio), proponiamo una semplice procedura di fine-tuning che chiamiamo tuning dei simboli, che può migliorare l’apprendimento in contesto enfatizzando le corrispondenze input-etichetta. Sperimentiamo con il tuning dei simboli su modelli Flan-PaLM e osserviamo vantaggi in diverse configurazioni.

  • Il tuning dei simboli aumenta le prestazioni su compiti di apprendimento in contesto non visti e risulta molto più robusto rispetto agli input non specificati, come quelli senza istruzioni o senza etichette in linguaggio naturale.
  • I modelli con tuning dei simboli sono molto più forti nei compiti di ragionamento algoritmico.
  • Infine, i modelli con tuning dei simboli mostrano grandi miglioramenti nel seguire etichette invertite presentate in contesto, il che significa che sono più capaci di utilizzare le informazioni in contesto per sovrascrivere le conoscenze precedenti.
Una panoramica del tuning dei simboli, in cui i modelli vengono sottoposti a fine-tuning su compiti in cui le etichette in linguaggio naturale vengono sostituite con simboli arbitrari. Il tuning dei simboli si basa sull’intuizione che quando non sono disponibili istruzioni o etichette rilevanti, i modelli devono utilizzare gli esempi in contesto per apprendere il compito.

Motivazione

Il tuning delle istruzioni è un metodo comune di fine-tuning che è stato dimostrato migliorare le prestazioni e consentire ai modelli di seguire meglio gli esempi in contesto. Tuttavia, una limitazione è che i modelli non sono costretti a imparare a utilizzare gli esempi perché il compito è definito in modo ridondante nell’esempio di valutazione tramite istruzioni ed etichette in linguaggio naturale. Ad esempio, a sinistra nella figura sopra, anche se gli esempi possono aiutare il modello a capire il compito (analisi del sentiment), non sono strettamente necessari poiché il modello potrebbe ignorare gli esempi e leggere solo l’istruzione che indica qual è il compito.

Nel tuning dei simboli, il modello viene sottoposto a fine-tuning su esempi in cui le istruzioni vengono rimosse e le etichette in linguaggio naturale vengono sostituite con etichette semanticamente non correlate (ad esempio, “Foo”, “Bar”, ecc.). In questa configurazione, il compito non è chiaro senza guardare gli esempi in contesto. Ad esempio, a destra nella figura sopra, sarebbero necessari più esempi in contesto per capire il compito. Poiché il tuning dei simboli insegna al modello a ragionare sugli esempi in contesto, i modelli con tuning dei simboli dovrebbero avere una migliore performance su compiti che richiedono il ragionamento tra gli esempi in contesto e le loro etichette.

Set di dati e tipologie di compito utilizzati per il tuning dei simboli.

Procedura di ottimizzazione dei simboli

Abbiamo selezionato 22 set di dati di elaborazione del linguaggio naturale (NLP) disponibili pubblicamente che utilizziamo per la nostra procedura di ottimizzazione dei simboli. Questi compiti sono stati ampiamente utilizzati in passato e abbiamo scelto solo compiti di tipo classificazione in quanto il nostro metodo richiede etichette discrete. Abbiamo quindi riassegnato le etichette a un’etichetta casuale tratta da un insieme di ~30.000 etichette arbitrarie selezionate da una delle tre categorie: numeri interi, combinazioni di caratteri e parole.

Per i nostri esperimenti, ottimizziamo i simboli di Flan-PaLM, le varianti ottimizzate delle istruzioni di PaLM. Utilizziamo tre diverse dimensioni dei modelli Flan-PaLM: Flan-PaLM-8B, Flan-PaLM-62B e Flan-PaLM-540B. Abbiamo anche testato Flan-cont-PaLM-62B (Flan-PaLM-62B con 1,3T tokens invece di 780B tokens), che abbreviamo come 62B-c.

Utilizziamo un insieme di simboli arbitrarie (∼300.000) suddivisi in tre categorie (numeri interi, combinazioni di caratteri e parole). Circa 30.000 simboli vengono utilizzati durante l’ottimizzazione e il resto viene trattenuto per la valutazione.

Configurazione sperimentale

Vogliamo valutare la capacità di un modello di svolgere compiti non visti in precedenza, quindi non possiamo valutare i compiti utilizzati nell’ottimizzazione dei simboli (22 set di dati) o utilizzati durante l’ottimizzazione delle istruzioni (1.800 compiti). Pertanto, scegliamo 11 set di dati NLP che non sono stati utilizzati durante il fine-tuning.

Apprendimento in contesto

Nella procedura di ottimizzazione dei simboli, i modelli devono imparare a ragionare con esempi in contesto al fine di svolgere con successo i compiti, poiché i prompt vengono modificati per garantire che i compiti non possano essere semplicemente appresi dalle etichette o istruzioni pertinenti. I modelli ottimizzati sui simboli dovrebbero avere una migliore performance in situazioni in cui i compiti non sono chiari e richiedono ragionamento tra esempi in contesto e le loro etichette. Per esplorare queste situazioni, definiamo quattro impostazioni di apprendimento in contesto che variano la quantità di ragionamento richiesta tra input ed etichette al fine di apprendere il compito (in base alla disponibilità di istruzioni/etichette naturali pertinenti)

A seconda della disponibilità di istruzioni e etichette naturali pertinenti, i modelli potrebbero dover fare diverse quantità di ragionamento con esempi in contesto. Quando queste caratteristiche non sono disponibili, i modelli devono ragionare con gli esempi in contesto forniti per svolgere con successo il compito.

L’ottimizzazione dei simboli migliora le prestazioni in tutte le impostazioni per i modelli di dimensioni pari o superiori a 62B, con piccoli miglioramenti nelle impostazioni con etichette naturali pertinenti (+0,8% a +4,2%) e miglioramenti sostanziali nelle impostazioni senza etichette naturali pertinenti (+5,5% a +15,5%). Sorprendentemente, quando le etichette pertinenti non sono disponibili, Flan-PaLM-8B ottimizzato sui simboli supera FlanPaLM-62B, e Flan-PaLM-62B ottimizzato sui simboli supera Flan-PaLM-540B. Questa differenza di prestazioni suggerisce che l’ottimizzazione dei simboli può consentire a modelli molto più piccoli di svolgere compiti altrettanto bene dei modelli grandi su questi compiti (risparmiando effettivamente ∼10 volte il calcolo inferenziale).

I modelli tarati sui simboli abbastanza grandi sono migliori nel learning in-context rispetto ai modelli di base, soprattutto in situazioni in cui non sono disponibili etichette rilevanti. Le prestazioni sono mostrate come accuratezza media del modello (%) su undici compiti.

Ragionamento algoritmico

Sperimentiamo anche su compiti di ragionamento algoritmico di BIG-Bench. Ci sono due gruppi principali di compiti: 1) Funzioni di elenco – identificare una funzione di trasformazione (ad esempio, rimuovere l’ultimo elemento in un elenco) tra elenchi di input e output contenenti interi non negativi; e 2) concetti di turing semplici – ragionare con stringhe binarie per imparare il concetto che mappa un input a un output (ad esempio, scambiare 0 e 1 in una stringa).

Sui compiti di funzione di elenco e concetto di turing semplici, la taratura dei simboli porta a un miglioramento medio delle prestazioni dell’18,2% e del 15,3%, rispettivamente. Inoltre, Flan-cont-PaLM-62B con taratura dei simboli supera Flan-PaLM-540B sui compiti di funzione di elenco in media, il che equivale a una riduzione di ∼10 volte nel calcolo dell’inferenza. Questi miglioramenti suggeriscono che la taratura dei simboli rafforza la capacità del modello di apprendere in-context per tipi di compiti non visti, poiché la taratura dei simboli non includeva alcun dato algoritmico.

I modelli tarati sui simboli ottengono prestazioni migliori nei compiti di funzione di elenco e concetto di turing semplici. (A-E): categorie di compiti di funzioni di elenco. (F): compito di concetti di turing semplici.

Etichette invertite

Nell’esperimento delle etichette invertite, le etichette degli esempi in-context e di valutazione vengono invertite, il che significa che le conoscenze precedenti e le corrispondenze input-etichetta sono in disaccordo (ad esempio, frasi contenenti sentimenti positivi etichettati come “sentimenti negativi”), permettendoci così di studiare se i modelli possono sovrascrivere le conoscenze precedenti. Lavori precedenti hanno dimostrato che mentre i modelli pre-allenati (senza taratura delle istruzioni) possono, fino a un certo punto, seguire le etichette invertite presentate in-context, la taratura delle istruzioni degrada questa capacità.

Vediamo che c’è una tendenza simile tra tutte le dimensioni dei modelli – i modelli tarati sui simboli sono molto più capaci di seguire le etichette invertite rispetto ai modelli tarati sulle istruzioni. Abbiamo scoperto che dopo la taratura dei simboli, Flan-PaLM-8B vede un miglioramento medio su tutti i set di dati del 26,5%, Flan-PaLM-62B vede un miglioramento del 33,7% e Flan-PaLM-540B vede un miglioramento del 34,0%. Inoltre, i modelli tarati sui simboli ottengono prestazioni simili o migliori rispetto ai modelli basati solo sul pre-training.

I modelli tarati sui simboli sono molto migliori nel seguire le etichette invertite presentate in-context rispetto ai modelli tarati sulle istruzioni.

Conclusione

Abbiamo presentato il tuning dei simboli, un nuovo metodo per ottimizzare i modelli su compiti in cui le etichette di linguaggio naturale vengono riportate in simboli arbitrari. Il tuning dei simboli si basa sull’intuizione che quando i modelli non possono utilizzare istruzioni o etichette rilevanti per determinare un compito presentato, devono invece imparare dagli esempi in contesto. Abbiamo sintonizzato quattro modelli di linguaggio utilizzando la nostra procedura di tuning dei simboli, utilizzando una miscela di tuning di 22 set di dati e circa 30.000 simboli arbitrari come etichette.

Innanzitutto, abbiamo dimostrato che il tuning dei simboli migliora le prestazioni su compiti di apprendimento in contesto non visti, soprattutto quando le istruzioni non contengono istruzioni o etichette rilevanti. Abbiamo anche scoperto che i modelli sintonizzati sui simboli erano molto migliori nel ragionamento algoritmico, nonostante la mancanza di dati numerici o algoritmici nella procedura di tuning dei simboli. Infine, in un contesto di apprendimento in cui gli input hanno etichette invertite, il tuning dei simboli (per alcuni set di dati) ripristina la capacità di seguire le etichette invertite che è stata persa durante il tuning delle istruzioni.

Sviluppi futuri

Attraverso il tuning dei simboli, miriamo ad aumentare il grado in cui i modelli possono esaminare e apprendere dalle corrispondenze input-etichetta durante l’apprendimento in contesto. Speriamo che i nostri risultati incoraggino ulteriori ricerche finalizzate al miglioramento della capacità dei modelli di linguaggio di ragionare sui simboli presentati in contesto.

Riconoscimenti

Gli autori di questo post fanno ora parte di Google DeepMind. Questo lavoro è stato condotto da Jerry Wei, Le Hou, Andrew Lampinen, Xiangning Chen, Da Huang, Yi Tay, Xinyun Chen, Yifeng Lu, Denny Zhou, Tengyu Ma e Quoc V. Le. Desideriamo ringraziare i nostri colleghi presso Google Research e Google DeepMind per i loro consigli e le utili discussioni.