Nuove ricerche sull’IA dall’Università del Maryland indagano la sfida dello cramming per addestrare un modello linguistico su una singola GPU in un giorno

Nuove ricerche sull'IA dall'Università del Maryland affrontano la sfida dello cramming per addestrare un modello linguistico in un giorno su una singola GPU.

In molte aree dell’elaborazione del linguaggio naturale, compresa l’interpretazione del linguaggio e la sintesi del linguaggio naturale, l’addestramento su larga scala di modelli di apprendimento automatico che utilizzano topologie di trasformatori ha prodotto progressi innovativi. Il comportamento ampiamente riconosciuto di questi sistemi è la loro capacità di scalare in modo stabile o di continuare a migliorare man mano che aumentano il numero di parametri del modello e il volume dei dati.

Mentre la maggior parte degli studi si concentra nel trovare nuovi modi per spingere i limiti del calcolo estremo, un team di ricercatori dell’Università del Maryland sta cercando le migliori modalità per ridurre la dimensione dell’addestramento del modello di linguaggio e i compromessi che possono verificarsi.

I ricercatori credono di poter addestrare un modello di linguaggio a causa della competizione per costruire modelli enormemente grandi che la potenza della scala ha scatenato. Il modello BERT iniziale viene utilizzato per molte applicazioni reali nell’elaborazione del linguaggio naturale. Tuttavia, per addestrare questo modello è già necessaria una quantità considerevole di calcolo.

Con risorse relativamente limitate, è possibile addestrare un modello di linguaggio fino al livello di prestazioni di BERT, il che comporta una serie di conseguenze interessanti. Uno dei motivi è che ciò apre una vasta gamma di ulteriori indagini accademiche che attualmente sono difficili da realizzare per i modelli su larga scala se l’addestramento del modello ridimensionato è un valido controparte dell’addestramento su larga scala. Secondo i ricercatori, potrebbero verificarsi situazioni in cui un professionista è interessato a ridurre la dimensione dei propri modelli di linguaggio utilizzando una fonte di dati specializzata o affidabile. Tuttavia, le considerazioni legali rendono poco chiaro se i modelli addestrati su dati pubblici di origine dubbia siano accettabili.

Il nuovo studio condotto dai ricercatori dell’Università del Maryland esplora la sfida della “Cramming” – imparare un intero modello di linguaggio il giorno prima del test. Il loro studio dimostra che le prestazioni si attengono strettamente alle regole di scalatura riscontrate in ambienti di calcolo su larga scala, anche in questa situazione ristretta. Per determinare se le modifiche al processo di addestramento portino a una migliore prestazione nella situazione ridimensionata, questa ricerca analizza prima vari aspetti del processo di addestramento.

Ridurre le dimensioni è una sfida. Mentre i design di modelli più piccoli rendono possibili calcoli di gradiente più veloci, i tassi complessivi di miglioramento del modello nel tempo sono quasi costanti. Tuttavia, le modifiche alla ricetta di addestramento che sfruttano le leggi di scalatura possono portare a miglioramenti aumentando il tasso effettivo di calcoli di gradiente senza ridurre la dimensione del modello. Alla fine, il team è stato in grado di addestrare modelli con un budget limitato e ottenere prestazioni rispettabili, avvicinandosi frequentemente e talvolta addirittura superando BERT nelle attività GLUE.

Il team valuta le prestazioni quando un modello di linguaggio basato su trasformatori viene utilizzato in una situazione con pochissimo calcolo. Scoprono che molteplici cambiamenti portano a prestazioni rispettabili a valle su GLUE. Il team spera che questo lavoro possa servire come punto di partenza per indagini sulla questione del cramming e fornire ulteriori spunti su diverse migliorie e strategie.