Pensi che sia rischioso allenare il tuo modello di linguaggio su dati limitati? Incontra SILO un nuovo modello di linguaggio che gestisce il compromesso tra rischio e prestazioni durante l’elaborazione dei dati.

Do you think it is risky to train your language model on limited data? Meet SILO, a new language model that manages the trade-off between risk and performance during data processing.

Sono state sollevate preoccupazioni legali riguardo ai modelli di linguaggio (LMs) di grandi dimensioni perché spesso vengono addestrati su contenuti coperti da copyright. Il compromesso intrinseco tra rischio legale e prestazioni del modello sta al centro di questo argomento. Utilizzare solo dati con licenza permissiva o pubblicamente disponibili per l’addestramento ha un impatto negativo significativo sull’accuratezza. Poiché i corpora comuni di LM comprendono una vasta gamma di argomenti, questo vincolo deriva dalla rarità dei dati permissivi e dalla loro stretta correlazione con fonti come libri scaduti dal copyright, registri governativi e codice con licenza permissiva.

Uno nuovo studio condotto dall’Università di Washington, UC Berkeley e l’Allen Institute for AI mostra che la suddivisione dei dati di addestramento in sottoinsiemi parametrici e non parametrici migliora il compromesso tra rischio e prestazioni. Il team addestra i parametri del LM su dati a basso rischio e li alimenta in una componente non parametrica (un datastore) che viene utilizzata solo durante l’inferenza. I dati ad alto rischio possono essere recuperati dai datastore non parametrici per migliorare le previsioni del modello al di fuori della fase di addestramento. Gli sviluppatori del modello possono rimuovere completamente i loro dati dal datastore fino al livello di singoli esempi, e il datastore può essere facilmente aggiornato in qualsiasi momento. Questo metodo assegna anche il credito ai contributori dei dati attribuendo le previsioni del modello fino al livello della frase. Grazie a queste caratteristiche aggiornate, il modello può essere allineato in modo più accurato con varie restrizioni sull’uso dei dati. I modelli parametrici, al contrario, rendono impossibile eliminare i dati ad alto rischio una volta completato l’addestramento ed è anche difficile attribuire dati su larga scala.

Hanno sviluppato SILO, un nuovo modello di linguaggio non parametrico per implementare la loro proposta. OPEN LICENSE CORPUS (OLC) – un nuovo corpus di preaddestramento per la componente parametrica di SILO – è ricco di diversi domini. La sua distribuzione è fortemente sbilanciata verso il codice e il testo governativo, rendendolo diverso da altri corpora di preaddestramento. A causa di ciò, ora si trovano di fronte al problema estremo della generalizzazione di dominio cercando di generalizzare un modello addestrato su domini molto specifici. Vengono addestrati tre modelli di LM con 1,3 miliardi di parametri su diversi sottoinsiemi di OLC, quindi viene creato un datastore per il momento del test che può incorporare dati ad alto rischio e i suoi contenuti vengono recuperati e utilizzati nell’inferenza. Un approccio di recupero nel contesto (RIC-LM) che recupera blocchi di testo e li fornisce al LM parametrico in contesto viene contrastato con un approccio dei vicini più prossimi (kNN-LM) che utilizza una funzione di previsione del prossimo token non parametrica.

La perplessità nella modellazione del linguaggio viene misurata in 14 domini, compresi dati in-domain e specifici di OLC. Qui, i ricercatori valutano SILO rispetto a Pythia, un LM parametrico che condivide alcune caratteristiche con SILO ma è stato sviluppato principalmente per l’uso con dati ad alto rischio. Prima confermano la difficoltà di generalizzare estremamente i domini dimostrando che solo il modello parametrico di SILO si comporta in modo competitivo sui domini coperti da OLC ma male fuori dal dominio. Tuttavia, questo problema viene risolto integrando SILO con un datastore durante l’inferenza. Mentre sia kNN-LM che RIC-LM aumentano considerevolmente le prestazioni fuori dal dominio, i risultati mostrano che kNN-LM generalizza meglio, consentendo a SILO di ridurre il divario con il modello di confronto Pythia in media del 90% su tutti i domini. L’analisi rivela che la previsione del prossimo token non parametrica in kNN-LM è resistente al cambiamento di dominio e che kNN-LM trae grande vantaggio dall’aumento del datastore.

In generale, questo lavoro indica che l’aumento delle dimensioni del datastore e il miglioramento ulteriore del modello non parametrico possono probabilmente colmare le lacune rimanenti nei pochi domini in cui SILO non ha ancora raggiunto i livelli di prestazioni di Pythia.