Google AI presenta AltUp (Alternating Updates) un metodo di intelligenza artificiale che sfrutta la crescita della scala nelle reti di trasformazione senza aumentare il costo di elaborazione.

Google AI introduce AltUp (Alternating Updates) un metodo di intelligenza artificiale che sfrutta la crescita su scala nelle reti di trasformazione senza incrementarne il costo di elaborazione.

Nell’apprendimento profondo, le reti neurali Transformer hanno attirato grande attenzione per la loro efficacia in vari domini, in particolare nell’elaborazione del linguaggio naturale e nelle applicazioni emergenti come la visione artificiale, la robotica e la guida autonoma. Tuttavia, mentre migliorano le prestazioni, l’aumento costante delle dimensioni di questi modelli comporta un aumento significativo dei costi di calcolo e della latenza dell’inferenza. La sfida fondamentale consiste nel sfruttare i vantaggi dei modelli più grandi senza incorrere in oneri computazionali impraticabili.

Il panorama attuale dei modelli di apprendimento profondo, in particolare dei Transformers, mostra un notevole progresso in diversi ambiti. Tuttavia, la scalabilità di questi modelli spesso deve essere migliorata a causa dei crescenti requisiti computazionali. Gli sforzi precedenti, esemplificati dai modelli di insiemi di esperti sparsi come Switch Transformer, Expert Choice e V-MoE, si sono concentrati principalmente sulla scalabilità efficiente dei parametri di rete, mitigando il calcolo aumentato per input. Tuttavia, esiste una lacuna di ricerca riguardo alla scalabilità della dimensione della rappresentazione del token stesso. Entra in gioco AltUp, un nuovo metodo introdotto per affrontare questa lacuna.

AltUp si distingue fornendo un metodo per aumentare la rappresentazione del token senza amplificare l’onere computazionale. Questo metodo suddivide in modo ingegnoso un vettore di rappresentazione allargato in blocchi di dimensioni uguali, elaborando solo un blocco per ogni livello. Il nocciolo dell’efficacia di AltUp risiede nel suo meccanismo di predizione-correzione, che consente l’inferenza di output per i blocchi non elaborati. Mantenendo la dimensione del modello e evitando l’aumento quadratico del calcolo associato all’espansione diretta, AltUp si presenta come una soluzione promettente alle sfide computazionali poste dai modelli Transformer più grandi.

La meccanica di AltUp approfondisce le complessità degli incorporamenti di token e come possono essere allargati senza innescare un aumento della complessità computazionale. Il metodo prevede:

  • L’invocazione di uno strato Transformer di larghezza 1x per uno dei blocchi.
  • Chiamato il blocco “attivato”.
  • L’utilizzo contemporaneo di un predittore leggero.

Questo predittore calcola una combinazione pesata di tutti i blocchi di input, e i valori predetti, insieme al valore calcolato del blocco attivato, vengono corretti tramite un correttore leggero. Questo meccanismo di correzione facilita l’aggiornamento dei blocchi non attivati ​​basato su quelli attivati. È importante sottolineare che sia la fase di previsione che quella di correzione coinvolgono un numero minimo di addizioni e moltiplicazioni vettoriali, significativamente più veloci rispetto a uno strato Transformer convenzionale.

L’valutazione di AltUp su modelli T5 per diverse attività di linguaggio dimostra la sua costante capacità di superare i modelli densi alla stessa accuratezza. In particolare, un modello T5 Large potenziato con AltUp ottiene notevoli guadagni di velocità del 27%, del 39%, dell’87% e del 29% rispettivamente sui benchmark GLUE, SuperGLUE, SQuAD e Trivia-QA. I miglioramenti relativi delle prestazioni di AltUp diventano più evidenti quando vengono applicati a modelli più grandi, sottolineando la sua scalabilità e la sua efficacia migliorata all’aumentare delle dimensioni del modello.

In conclusione, AltUp emerge come una soluzione degna di nota per la sfida da tempo irrisolta della scalabilità efficiente delle reti neurali Transformer. La sua capacità di ampliare la rappresentazione del token senza un aumento proporzionale dei costi di calcolo offre notevoli promesse per varie applicazioni. L’approccio innovativo di AltUp, caratterizzato dalla suddivisione e dal meccanismo di predizione-correzione, offre un modo pragmatico per sfruttare i benefici di modelli più grandi senza cedere a esigenze computazionali impraticabili.

L’estensione dei ricercatori di AltUp, nota come Recycled-AltUp, mostra ulteriormente l’adattabilità del metodo proposto. Recycled-AltUp, replicando gli embedding anziché ampliare gli embedding iniziali dei token, dimostra un miglioramento rigoroso delle prestazioni di pre-training senza introdurre rallentamenti percettibili. Questo approccio a doppia punta, unito alla perfetta integrazione di AltUp con altre tecniche come MoE, ne esemplifica la versatilità e apre nuove strade per futuri studi sull’esplorazione delle dinamiche dell’addestramento e delle prestazioni del modello.

AltUp rappresenta una svolta nella ricerca di una scalabilità efficiente delle reti Transformer, offrendo una soluzione convincente al compromesso tra dimensioni del modello ed efficienza computazionale. Come illustrato in questo articolo, i contributi del team di ricerca rappresentano un passo significativo verso la resa dei modelli Transformer su larga scala più accessibili e pratici per una miriade di applicazioni.