Imparare a far crescere modelli di machine learning

Learn to grow machine learning models.

La nuova tecnica LiGO accelera l’addestramento di grandi modelli di machine learning, riducendo il costo monetario ed ambientale dello sviluppo di applicazioni di intelligenza artificiale.

The framework developed by the researchers accelerates training of a new, larger neural network model by using the weights in the neurons of an older, smaller model as building blocks. Their machine-learning approach learns to expand the width and depth of the larger model in a data-driven way.

Non è un segreto che ChatGPT di OpenAI abbia alcune incredibili capacità — ad esempio, il chatbot può scrivere poesie che ricordano i sonetti di Shakespeare o risolvere i bug di un programma informatico. Tali abilità sono rese possibili dal massiccio modello di apprendimento automatico su cui si basa ChatGPT. I ricercatori hanno scoperto che quando questi modelli diventano abbastanza grandi, emergono capacità straordinarie.

Ma modelli più grandi richiedono anche più tempo e denaro per essere addestrati. Il processo di addestramento prevede la presentazione di centinaia di miliardi di esempi a un modello. Raccogliere così tanti dati è un processo complesso di per sé. Poi arrivano i costi monetari e ambientali di far funzionare molti computer potenti per giorni o settimane per addestrare un modello che potrebbe avere miliardi di parametri.

“Si stima che l’addestramento dei modelli della scala su cui si ipotizza che funzioni ChatGPT potrebbe costare milioni di dollari, solo per una singola fase di addestramento. Possiamo migliorare l’efficienza di questi metodi di addestramento, in modo da poter ottenere comunque buoni modelli in meno tempo e con meno soldi? Proponiamo di farlo utilizzando modelli di lingua più piccoli che sono stati precedentemente addestrati”, afferma Yoon Kim, professore associato nel Dipartimento di Ingegneria Elettrica e Informatica del MIT e membro del Laboratorio di Informatica e Intelligenza Artificiale (CSAIL).

Invece di scartare una versione precedente di un modello, Kim e i suoi collaboratori la utilizzano come mattoni per un nuovo modello. Utilizzando l’apprendimento automatico, il loro metodo impara a “far crescere” un modello più grande da un modello più piccolo in modo che codifichi le conoscenze che il modello più piccolo ha già acquisito. Ciò consente un addestramento più rapido del modello più grande.

La loro tecnica consente di risparmiare circa il 50% del costo computazionale richiesto per addestrare un grande modello, rispetto ai metodi che addestrano un nuovo modello da zero. Inoltre, i modelli addestrati con il metodo MIT hanno funzionato altrettanto bene o meglio dei modelli addestrati con altre tecniche che utilizzano anche modelli più piccoli per consentire un addestramento più rapido di modelli più grandi.

La riduzione del tempo necessario per addestrare modelli enormi potrebbe aiutare i ricercatori a fare progressi più rapidamente con meno spese, riducendo anche le emissioni di carbonio generate durante il processo di addestramento. Potrebbe anche consentire a gruppi di ricerca più piccoli di lavorare con questi modelli massicci, aprendo potenzialmente la porta a molti nuovi progressi.

“Mentre cerchiamo di democratizzare questi tipi di tecnologie, rendere l’addestramento più veloce e meno costoso diventerà sempre più importante”, afferma Kim, autore principale di un articolo su questa tecnica.

Kim e il suo dottorando Lucas Torroba Hennigen hanno scritto l’articolo con l’autore principale Peihao Wang, dottorando presso l’Università del Texas ad Austin, nonché altri presso il MIT-IBM Watson AI Lab e la Columbia University. La ricerca verrà presentata alla Conferenza internazionale sulla rappresentazione dell’apprendimento.

Più grandi sono, meglio è

I grandi modelli di lingua come GPT-3, che è al centro di ChatGPT, sono costruiti utilizzando un’architettura di rete neurale chiamata transformer. Una rete neurale, vagamente basata sul cervello umano, è composta da strati di nodi interconnessi, o “neuroni”. Ogni neurone contiene parametri, che sono variabili apprese durante il processo di addestramento che il neurone utilizza per elaborare i dati.

Le architetture transformer sono uniche perché, quando questi tipi di modelli di rete neurale diventano più grandi, ottengono risultati molto migliori.

“Ciò ha portato a una corsa agli armamenti di aziende che cercano di addestrare transformer sempre più grandi su insiemi di dati sempre più grandi. Più che altre architetture, sembra che le reti transformer migliorino molto con la ridimensionamento. Non sappiamo esattamente perché sia così”, dice Kim.

Questi modelli spesso hanno centinaia di milioni o miliardi di parametri apprendibili. Addestrare tutti questi parametri da zero è costoso, quindi i ricercatori cercano di accelerare il processo.

Una tecnica efficace è nota come crescita del modello. Utilizzando il metodo di crescita del modello, i ricercatori possono aumentare le dimensioni di un transformer copiando neuroni, o addirittura interi strati di una versione precedente della rete, quindi impilando su di essi. Possono rendere una rete più ampia aggiungendo nuovi neuroni a uno strato o renderla più profonda aggiungendo strati aggiuntivi di neuroni.

A differenza di approcci precedenti per la crescita del modello, i parametri associati ai nuovi neuroni nel transformer espanso non sono solo copie dei parametri della rete più piccola, spiega Kim. Piuttosto, sono combinazioni apprese dei parametri del modello più piccolo.

Imparare a crescere

Kim e i suoi collaboratori utilizzano l’apprendimento automatico per imparare una mappatura lineare dei parametri del modello più piccolo. Questa mappa lineare è un’operazione matematica che trasforma un insieme di valori di input, in questo caso i parametri del modello più piccolo, in un insieme di valori di output, in questo caso i parametri del modello più grande.

Il loro metodo, chiamato operatore di crescita lineare appreso (LiGO), impara ad espandere la larghezza e la profondità di una rete più grande dai parametri di una rete più piccola in modo basato sui dati.

Tuttavia, il modello più piccolo potrebbe essere effettivamente abbastanza grande – forse ha cento milioni di parametri – e i ricercatori potrebbero voler creare un modello con un miliardo di parametri. Quindi, la tecnica LiGO suddivide la mappa lineare in pezzi più piccoli che un algoritmo di apprendimento automatico può gestire.

LiGO espande anche larghezza e profondità contemporaneamente, il che lo rende più efficiente rispetto ad altri metodi. Un utente può regolare quanto vuole che il modello più grande sia largo e profondo quando inserisce il modello più piccolo e i suoi parametri, spiega Kim.

Quando hanno confrontato la loro tecnica con il processo di addestramento di un nuovo modello da zero, così come con i metodi di crescita del modello, era più veloce di tutti i modelli di riferimento. Il loro metodo risparmia circa il 50% dei costi computazionali richiesti per addestrare modelli di visione e di linguaggio, migliorandone spesso le prestazioni.

I ricercatori hanno anche scoperto di poter utilizzare LiGO per accelerare l’addestramento del transformer anche quando non avevano accesso a un modello più piccolo preaddestrato.

“Sono rimasto sorpreso dal fatto che tutti i metodi, compreso il nostro, abbiano fatto meglio rispetto alle basi di partenza di inizializzazione casuale e addestramento da zero”, dice Kim.

In futuro, Kim e i suoi collaboratori si aspettano di applicare LiGO a modelli ancora più grandi.

Il lavoro è stato finanziato, in parte, dal MIT-IBM Watson AI Lab, Amazon, l’IBM Research AI Hardware Center, il Center for Computational Innovation presso il Rensselaer Polytechnic Institute e l’U.S. Army Research Office.