Questo articolo sull’IA propone Retentive Networks (RetNet) come architettura fondamentale per i grandi modelli di linguaggio ottenendo parallelismo di addestramento, inferenza a basso costo e buone prestazioni

This article on AI proposes Retentive Networks (RetNet) as a fundamental architecture for large language models, achieving training parallelism, low-cost inference, and good performance.

Il Transformer, che è stato sviluppato inizialmente per affrontare il problema dell’addestramento sequenziale con modelli ricorrenti, è diventato il de facto architettura per grandi modelli di linguaggio. La complessità O(N) per passo dei Transformers e la cache chiave-valore vincolata alla memoria lo rendono inadatto per il deployment, sacrificando il parallelismo di addestramento per una scarsa inferenza. L’allungamento della sequenza rallenta la velocità di inferenza, aumenta la latenza e utilizza più memoria GPU. L’architettura di prossima generazione ha continuato lo sviluppo estensivo per mantenere il parallelismo di addestramento e le prestazioni competitive dei Transformers, pur avendo un’efficace inferenza O(1).

Figura 1: RetNet consente di raggiungere il “triangolo impossibile”, che simultaneamente raggiunge il parallelismo di addestramento, alte prestazioni e costi di inferenza economici.

Il cosiddetto “triangolo impossibile” nella Figura 1 illustra quanto sia difficile raggiungere contemporaneamente gli obiettivi sopra menzionati. Sono presenti tre linee di ricerca chiave. Per riscrivere l’inferenza autoregressiva in una forma ricorrente, l’attenzione linearizzata approssima prima i punteggi di attenzione convenzionali exp(q . k) utilizzando i kernel ϕ(q). ϕ(k). La popolarità del metodo potrebbe essere migliorata perché ha prestazioni e modelli meno buoni rispetto ai Transformers. La seconda linea di ricerca rinuncia all’addestramento parallelo a favore dei modelli ricorrenti per un’efficace inferenza. Vengono utilizzati operatori elemento per elemento per correggere l’accelerazione, anche se ciò compromette la capacità di rappresentazione e le prestazioni. Per l’attenzione, la terza linea di ricerca indaga sulla sostituzione di meccanismi alternativi, come S4 e le sue varianti.

Non c’è un vincitore apparente rispetto ai Transformers poiché nessuno dei lavori precedenti può sfuggire all’impasse. I ricercatori di Microsoft Research e Tsinghua University propongono retentive networks (RetNet) che forniscono contemporaneamente inferenza a basso costo, modellazione efficace di sequenze lunghe, prestazioni paragonabili ai Transformers e addestramento parallelo del modello. Offrono specificamente un meccanismo di retention multi-scala con tre paradigmi di elaborazione, rappresentazioni simili, ricorrenti e ricorrenti per blocchi, per sostituire l’attenzione multi-testa. In primo luogo, il parallelismo di addestramento può utilizzare pienamente i dispositivi GPU grazie alla rappresentazione parallela. In secondo luogo, la rappresentazione ricorrente rende possibile un’efficace inferenza O(1) in termini di memoria e calcolo. Sia il costo di deployment che la latenza possono essere notevolmente ridotti.

Senza le tecniche di cache chiave-valore, il metodo è anche molto più semplice. Terzo, la modellazione efficace di sequenze lunghe può essere fatta utilizzando la rappresentazione ricorrente per blocchi. Ripetutamente codificano i blocchi globali per conservare la memoria GPU, mentre contemporaneamente codificano ogni blocco locale per velocizzare l’elaborazione. Per confrontare RetNet con Transformer e le sue derivate, vengono effettuati test completi. Secondo i risultati sperimentali sulla modellazione del linguaggio, RetNet compete costantemente in termini di curve di scalabilità e apprendimento in contesto. Inoltre, il costo di inferenza di RetNet è invariante rispetto alla lunghezza.

RetNet decodifica 8,4 volte più velocemente e utilizza il 70% di memoria in meno rispetto ai Transformers con cache chiave-valore per un modello da 7B e una lunghezza di sequenza di 8k. RetNet risparmia anche il 25-50% di memoria durante l’addestramento accelerato rispetto a un normale Transformer e si comporta meglio di FlashAttention altamente ottimizzato. La latenza di inferenza di RetNet non è influenzata dalla dimensione del batch, consentendo un throughput estremamente elevato. RetNet è un valido sostituto del Transformer per grandi modelli di linguaggio grazie alle sue affascinanti caratteristiche.