Google AI presenta AltUp

Google AI svela AltUp la nuova frontiera della tecnologia

Le reti neurali Transformer sono diventate un punto focale, dimostrando una notevole efficacia nell’elaborazione del linguaggio naturale e nelle applicazioni emergenti come la visione artificiale, la robotica e la guida autonoma. Tuttavia, la crescente scala di questi modelli presenta sfide, principalmente in termini di costi associati alla computazione e alla latenza dell’inferenza.

Questo crea una domanda di soluzioni innovative per migliorare la scalabilità senza gravare in modo impraticabile sulla computazione. Entra in scena AltUp di Google AI, un nuovo metodo progettato per aumentare la rappresentazione dei token senza amplificare l’onere computazionale.

Mentre modelli come Switch Transformer, Expert Choice e V-MoE hanno compiuto progressi nell’implementazione efficiente dei parametri di rete, è rimasta una lacuna di ricerca riguardo all’aumento delle dimensioni della rappresentazione dei token. Ed è qui che brilla AltUp.

Ciò che rende AltUp unico è la sua capacità di suddividere un vettore di rappresentazione allargato in blocchi di dimensioni uguali, elaborando un solo blocco in ogni livello. La sua efficacia risiede in un meccanismo di predizione-correzione, che permette di inferire output per i blocchi non elaborati.

Secondo il blog di Google AI, mantenendo le dimensioni del modello e evitando un aumento quadratico della computazione, AltUp si configura come una soluzione promettente alle sfide poste dalle reti Transformer di dimensioni maggiori.

La meccanica di AltUp si addentra nelle complessità dell’embedding dei token, dimostrando come sia possibile allargarli senza scatenare un aumento della complessità computazionale. Il metodo prevede l’invocazione di uno strato di trasformatore di larghezza 1x per un blocco, denominato blocco “attivato”, e l’uso simultaneo di un predittore leggero.

Questo predittore calcola una combinazione pesata di tutti i blocchi di input, corretta mediante un correttore leggero, facilitando l’aggiornamento dei blocchi inattivati in base a quelli attivati. Sia la fase di predizione che quella di correzione coinvolgono addizioni e moltiplicazioni vettoriali minime, rendendole significativamente più veloci rispetto agli strati di trasformatore convenzionali.

L’valutazione di AltUp sui modelli T5 per varie attività linguistiche standard ne mostra la capacità costante di superare i modelli densi con la stessa accuratezza. Un modello T5 Large potenziato con AltUp raggiunge notevoli velocizzazioni del 27%, 39%, 87% e 29% nei benchmark GLUE, SuperGLUE, SQuAD e Trivia-QA, rispettivamente.

In particolare, i miglioramenti relativi delle prestazioni di AltUp diventano più evidenti con modelli più grandi, sottolineando la sua scalabilità e l’efficacia potenziata all’aumentare delle dimensioni del modello. L’estensione di AltUp proposta dai ricercatori, denominata Recycled-AltUp, dimostra ulteriormente l’adattabilità del metodo proposto.

Recycled-AltUp, replicando gli embedding anziché allargarli, mostra miglioramenti significativi nelle prestazioni di preallenamento senza rallentamenti percettibili.

Nel complesso, l’obiettivo di questo articolo e il contributo del team contribuiscono a rendere i modelli di Transformer su larga scala più pratici e accessibili a un’ampia gamma di applicazioni.