Incontra Skill-it un quadro di competenze basato sui dati per comprendere e addestrare modelli linguistici

Incontra Skill-it, un quadro di competenze basato sui dati per addestrare modelli linguistici.

I modelli di linguaggio di grandi dimensioni (LM) sono straordinariamente capaci di creare codice sorgente, opere d’arte originali e di conversare con le persone. I dati utilizzati per addestrare i modelli li rendono capaci di svolgere queste attività. Potenziando questi dati di addestramento, è possibile sbloccare naturalmente determinate abilità. Dato un numero limitato di token di addestramento, non è chiaro come scegliere i dati da un corpus enorme per queste capacità, poiché la maggior parte degli algoritmi di selezione dei dati basati sugli attuali modelli di linguaggio di punta si basa su euristiche per filtrare e combinare vari dataset. È necessario un quadro formale per descrivere come i dati influenzano le capacità del modello e come utilizzare questi dati per migliorare le prestazioni del LM.

Hanno tratto ispirazione dal modo in cui le persone imparano per creare questo quadro. La nozione di abilità che costituiscono una gerarchia di apprendimento è un argomento ben noto nella letteratura educativa. Ad esempio, la ricerca ha rivelato che presentare concetti matematici e scientifici in un ordine specifico ha aiutato gli studenti a comprenderli più rapidamente. Vogliono sapere quanto ordini di abilità comparabili caratterizzino l’addestramento del LM. Se tali ordini esistono, potrebbero offrire un quadro per un addestramento efficiente dei dati e una comprensione più profonda dei modelli di linguaggio. Ad esempio, vogliono sapere se addestrare inizialmente su compiti simili ma più facili, come la grammatica spagnola e la creazione di domande in inglese, aiuta ad addestrare un LM per la generazione di domande in spagnolo.

Figura 1: Ipotizzano che i LM imparino meglio le abilità in un certo ordine e che ciò possa aiutarli a comprendere e insegnare meglio i LM. Questa ipotesi è stata ispirata da come gli esseri umani acquisiscono informazioni. Dimostrano che questi insiemi di abilità ordinate esistono nei dati reali, consentendo di apprendere abilità con meno dati se le abilità necessarie vengono addestrate. Hanno quindi creato SKILL-IT, un sistema di selezione dei dati online che sfrutta l’ordine delle abilità per acquisire rapidamente abilità.

Indagano se il concetto di ordine delle abilità può aiutare nello sviluppo di un quadro che collega i dati all’addestramento e al comportamento del LM. Per fare ciò, devono essere risolti due problemi relativi all’interazione tra dati e abilità. Prima di tutto, deve essere definita e testata una definizione operativa di abilità del LM e ordine delle abilità utilizzando i dati per dimostrare che esistono insiemi di abilità che il LM apprende in modo più efficace in una determinata sequenza. Nella loro prima ricerca, hanno esaminato se il raggruppamento semantico dei dati, come le proprietà dei metadati o i cluster di embedding, potesse rappresentare adeguatamente un’abilità e descrivere il processo di apprendimento dei modelli.

Ad esempio, hanno suddiviso il dataset Alpaca per tipo di istruzione al fine di catturare la diversità dei dati. Tuttavia, hanno scoperto che il campionamento basato sul tipo di istruzione e il campionamento casuale producevano modelli con prestazioni simili, indicando che non qualsiasi idea esistente di raggruppamento dei dati può caratterizzare abilità. Per migliorare realmente l’addestramento del modello, è necessario costruire distribuzioni di campioni utilizzando queste definizioni di abilità. Elencano le difficoltà che le tecniche di selezione naive incontrano per creare criteri per un algoritmo di selezione dei dati che apprende efficacemente le abilità. A causa dell’inequilibrio e dell’ordine delle abilità che non vengono considerati nella tecnica tradizionale di campionamento casuale uniforme tra i dati, le abilità di apprendimento non sono ottimizzate.

Ad esempio, lo spagnolo e la generazione di domande (QG) comprendono rispettivamente il 5% e il 4% del dataset di istruzioni naturali, mentre lo spagnolo QG rappresenta solo lo 0,2%. Le abilità potrebbero essere distribuite in modo non uniforme nei dati e le abilità più complesse sono rare. Inoltre, il campionamento casuale non offre un modo per tener conto di una sequenza di addestramento specifica o di una struttura di dipendenza delle abilità. L’ordinamento a livello di campione è considerato da strategie più avanzate come l’apprendimento curricolare ma non dalle abilità o dalle loro dipendenze. Questi problemi di squilibrio e ordine devono essere considerati dal loro quadro di riferimento. Un sistema basato su abilità, come unità di comportamento che un modello può apprendere utilizzando un insieme di dati associato, viene definito un’abilità.

Un insieme di abilità ordinate è un gruppo di abilità con un grafo delle abilità diretto che non è né completo né vuoto, in cui esiste un arco da una abilità prerequisito a una abilità se il tempo di addestramento richiesto per imparare l’abilità può essere abbreviato se viene anche appresa l’abilità prerequisito (Figura 1 sinistra, centro). Utilizzando questa definizione operativa, dimostrano l’esistenza di insiemi di abilità ordinate in dataset artificiali e reali. Interessantemente, questi insiemi di abilità ordinate rivelano che per apprendere rapidamente una competenza è necessario addestrarsi sia su quella competenza che sulle abilità necessarie anziché solo su quella competenza da sola.

Secondo le loro osservazioni, quando il modello apprende anche l’inglese QG e lo spagnolo, potrebbero ottenere una perdita di validazione inferiore del 4% rispetto all’addestramento esclusivamente su QG spagnolo, nel limite di un budget totale di passi di addestramento. Successivamente, utilizzando la loro teoria, forniscono due approcci per la scelta dei dati in modo che l’LM apprenda più rapidamente le abilità: campionamento stratificato per abilità e una generalizzazione online, SKILL-IT. Ricercatori dell’Università di Stanford, dell’Università del Wisconsin-Madison, di Together AI e dell’Università di Chicago propongono la selezione stratificata per abilità, un metodo diretto che ci consente di ottimizzare esplicitamente le abilità di apprendimento campionando uniformemente le abilità rilevanti (come un’abilità obiettivo e le sue abilità necessarie nella messa a punto) per risolvere il problema delle abilità distribuite in modo non uniforme nei dataset.

Dato che il campionamento stratificato per abilità è statico e non tiene conto dell’ordine durante l’addestramento, sovracampiona le abilità che potrebbero essere state acquisite in precedenza nel processo di addestramento. Propongono SKILL-IT, una tecnica di selezione online dei dati per scegliere combinazioni di abilità di addestramento, per affrontare questo problema attribuendo un peso maggiore alle abilità ancora da apprendere o alle abilità prerequisito influenti (Figura 1 a destra). Supponendo un budget di dati fisso e un grafo delle abilità, SKILL-IT è sviluppato a partire da un problema di ottimizzazione online sulle abilità di addestramento per minimizzare la perdita su un insieme di abilità di valutazione.

In base al collegamento tra l’insieme di abilità di valutazione e l’insieme di abilità di addestramento, SKILL-IT può essere modificato per l’addestramento continuo, la messa a punto o la valutazione fuori dominio. Si è ispirato alla discesa a specchio online. Su dataset artificiali e reali, valutano SKILL-IT con due dimensioni del modello: 125M e 1.3B parametri. Nella simulazione LEGO, dimostrano un miglioramento di 35.8 punti in termini di accuratezza per lo scenario di pre-addestramento continuo rispetto alla scelta casuale dei dati di addestramento e all’apprendimento del curriculum. Con lo stesso budget di addestramento totale, dimostrano che il loro algoritmo su una combinazione di abilità può ottenere una perdita fino al 13.6% inferiore rispetto all’addestramento esclusivamente su quell’abilità nell’ambiente di messa a punto.

Il loro algoritmo può ottenere la perdita più bassa su 11 delle 12 abilità di valutazione corrispondenti alle categorie di attività nel dataset dei compiti di test delle istruzioni naturali rispetto al campionamento casuale e stratificato per abilità dei dati di addestramento nell’ambiente fuori dominio in cui le abilità di addestramento non si allineano perfettamente alle abilità di valutazione. Infine, forniscono uno studio di caso utilizzando il dataset più recente RedPajama di 1.2 trilioni di token per applicare il loro approccio. Pre-addestrano continuamente un modello con 3B di parametri utilizzando la miscela di dati generata da SKILL-IT. Scoprono che SKILL-IT supera il campionamento uniforme su fonti di dati con 3B di token in termini di accuratezza con 1B di token.