Ricercatori dell’Università di Massachusetts Lowell propongono ReLoRA un nuovo metodo di intelligenza artificiale che utilizza aggiornamenti a basso rango per l’addestramento ad alto rango.

Ricercatori dell'Università di Massachusetts Lowell propongono ReLoRA, un nuovo metodo di intelligenza artificiale che utilizza aggiornamenti a basso rango per l'addestramento ad alto rango.

Nell’ultimo decennio, addestrare reti sempre più grandi e sovra-parametrizzate, o la strategia “aggiungere più strati”, è diventato la norma nell’apprendimento automatico. Man mano che la soglia per una “rete grande” è aumentata da 100 milioni a centinaia di miliardi di parametri, la maggior parte dei gruppi di ricerca ha trovato troppo elevati i costi di elaborazione associati all’addestramento di tali reti per giustificarli. Nonostante ciò, manca una comprensione teorica della necessità di addestrare modelli che possono avere ordini di grandezza di parametri più elevati rispetto alle istanze di addestramento.

Opzioni di ridimensionamento più efficienti dal punto di vista del calcolo, modelli potenziati da recupero e la semplice strategia di addestrare modelli più piccoli per un periodo più lungo hanno tutti offerto nuovi trade-off affascinanti come approcci alternativi al ridimensionamento. Tuttavia, raramente democratizzano l’addestramento di questi modelli e non ci aiutano a capire perché i modelli sovra-parametrizzati siano necessari.

La sovra-parametrizzazione non è nemmeno necessaria per l’addestramento, secondo molti studi recenti. L’evidenza empirica supporta l’Ipotesi del Biglietto della Lotteria, che afferma che, in qualche punto dell’inizializzazione (o dell’addestramento iniziale), ci sono sottoreti isolate (biglietti vincenti) che, quando addestrate, raggiungono le prestazioni dell’intera rete.

Ricerche recenti dell’Università del Massachusetts Lowell hanno introdotto ReLoRA per risolvere questo problema utilizzando la proprietà del rango della somma per addestrare una rete ad alto rango con una serie di aggiornamenti a basso rango. I loro risultati mostrano che ReLoRA è in grado di un aggiornamento ad alto rango e fornisce risultati paragonabili all’addestramento standard della rete neurale. ReLoRA utilizza un avvio rapido ad alto rango simile all’ipotesi del biglietto della lotteria con il riavvolgimento. Con l’aggiunta di un approccio di fusione e rinizia (restart), un programmatore di tassi di apprendimento a zigzag e ripristini parziali dell’ottimizzatore, l’efficienza di ReLoRA viene migliorata e si avvicina all’addestramento ad alto rango, soprattutto nelle grandi reti.

Hanno testato ReLoRA con modelli di linguaggio transformer a 350 milioni di parametri. Durante i test, si sono concentrati sul modellamento del linguaggio autoregressivo perché si è dimostrato applicabile in un’ampia gamma di utilizzi delle reti neurali. I risultati hanno mostrato che l’efficacia di ReLoRA cresce con la dimensione del modello, suggerendo che potrebbe essere una buona scelta per addestrare reti con miliardi di parametri.

Quando si tratta di addestrare grandi modelli di linguaggio e reti neurali, i ricercatori ritengono che lo sviluppo di approcci di addestramento a basso rango offra promettenti possibilità per aumentare l’efficienza di addestramento. Credono che la comunità possa imparare di più su come addestrare reti neurali tramite discesa del gradiente e sulle loro notevoli capacità di generalizzazione nell’ambito sovra-parametrizzato dall’addestramento a basso rango, che ha il potenziale per contribuire significativamente allo sviluppo delle teorie di apprendimento profondo.