Questo articolo sull’IA propone Retentive Networks (RetNet) come architettura fondamentale per i grandi modelli di linguaggio ottenendo parallelismo di addestramento, inferenza a basso costo e buone prestazioni

This article on AI proposes Retentive Networks (RetNet) as a fundamental architecture for large language models, achieving training parallelism, low-cost inference, and good performance.

Il Transformer, che è stato sviluppato inizialmente per affrontare il problema dell’addestramento sequenziale con modelli ricorrenti, è diventato il de facto architettura per grandi modelli di linguaggio. La complessità O(N) per passo dei Transformers e la cache chiave-valore vincolata alla memoria lo rendono inadatto per il deployment, sacrificando il parallelismo di addestramento per una scarsa inferenza. L’allungamento della sequenza rallenta la velocità di inferenza, aumenta la latenza e utilizza più memoria GPU. L’architettura di prossima generazione ha continuato lo sviluppo estensivo per mantenere il parallelismo di addestramento e le prestazioni competitive dei Transformers, pur avendo un’efficace inferenza O(1).

Figura 1: RetNet consente di raggiungere il “triangolo impossibile”, che simultaneamente raggiunge il parallelismo di addestramento, alte prestazioni e costi di inferenza economici.

Il cosiddetto “triangolo impossibile” nella Figura 1 illustra quanto sia difficile raggiungere contemporaneamente gli obiettivi sopra menzionati. Sono presenti tre linee di ricerca chiave. Per riscrivere l’inferenza autoregressiva in una forma ricorrente, l’attenzione linearizzata approssima prima i punteggi di attenzione convenzionali exp(q . k) utilizzando i kernel ϕ(q). ϕ(k). La popolarità del metodo potrebbe essere migliorata perché ha prestazioni e modelli meno buoni rispetto ai Transformers. La seconda linea di ricerca rinuncia all’addestramento parallelo a favore dei modelli ricorrenti per un’efficace inferenza. Vengono utilizzati operatori elemento per elemento per correggere l’accelerazione, anche se ciò compromette la capacità di rappresentazione e le prestazioni. Per l’attenzione, la terza linea di ricerca indaga sulla sostituzione di meccanismi alternativi, come S4 e le sue varianti.

Non c’è un vincitore apparente rispetto ai Transformers poiché nessuno dei lavori precedenti può sfuggire all’impasse. I ricercatori di Microsoft Research e Tsinghua University propongono retentive networks (RetNet) che forniscono contemporaneamente inferenza a basso costo, modellazione efficace di sequenze lunghe, prestazioni paragonabili ai Transformers e addestramento parallelo del modello. Offrono specificamente un meccanismo di retention multi-scala con tre paradigmi di elaborazione, rappresentazioni simili, ricorrenti e ricorrenti per blocchi, per sostituire l’attenzione multi-testa. In primo luogo, il parallelismo di addestramento può utilizzare pienamente i dispositivi GPU grazie alla rappresentazione parallela. In secondo luogo, la rappresentazione ricorrente rende possibile un’efficace inferenza O(1) in termini di memoria e calcolo. Sia il costo di deployment che la latenza possono essere notevolmente ridotti.

Senza le tecniche di cache chiave-valore, il metodo è anche molto più semplice. Terzo, la modellazione efficace di sequenze lunghe può essere fatta utilizzando la rappresentazione ricorrente per blocchi. Ripetutamente codificano i blocchi globali per conservare la memoria GPU, mentre contemporaneamente codificano ogni blocco locale per velocizzare l’elaborazione. Per confrontare RetNet con Transformer e le sue derivate, vengono effettuati test completi. Secondo i risultati sperimentali sulla modellazione del linguaggio, RetNet compete costantemente in termini di curve di scalabilità e apprendimento in contesto. Inoltre, il costo di inferenza di RetNet è invariante rispetto alla lunghezza.

RetNet decodifica 8,4 volte più velocemente e utilizza il 70% di memoria in meno rispetto ai Transformers con cache chiave-valore per un modello da 7B e una lunghezza di sequenza di 8k. RetNet risparmia anche il 25-50% di memoria durante l’addestramento accelerato rispetto a un normale Transformer e si comporta meglio di FlashAttention altamente ottimizzato. La latenza di inferenza di RetNet non è influenzata dalla dimensione del batch, consentendo un throughput estremamente elevato. RetNet è un valido sostituto del Transformer per grandi modelli di linguaggio grazie alle sue affascinanti caratteristiche.

AI Shorts,Applications,artificial intelligence,Editors Pick,Language Model,Large Language Model,Machine Learning,Staff,Tech News,Technology,Uncategorized

Ricerca di similarità, Parte 6 Proiezioni casuali con LSH Forest

Sappiamo che gli LLM possono utilizzare strumenti, ma sapevi che possono anche creare nuovi strumenti? Incontra gli LLM come produttori di strumenti (LATM) un sistema a ciclo chiuso che consente agli LLM di creare i propri strumenti riutilizzabili.

Questo articolo sull’IA propone Retentive Networks (RetNet) come architettura fondamentale per i grandi modelli di linguaggio ottenendo parallelismo di addestramento, inferenza a basso costo e buone prestazioni

This article on AI proposes Retentive Networks (RetNet) as a fundamental architecture for large language models, achieving training parallelism, low-cost inference, and good performance.

Ricerca di similarità, Parte 6 Proiezioni casuali con LSH Forest

Sappiamo che gli LLM possono utilizzare strumenti, ma sapevi che possono anche creare nuovi strumenti? Incontra gli LLM come produttori di strumenti (LATM) un sistema a ciclo chiuso che consente agli LLM di creare i propri strumenti riutilizzabili.

Incontra MultiDiffusion Un framework AI uni...

Come dovresti convalidare i modelli di appr...

Tendenze delle startup di intelligenza arti...

Google AI presenta SimPer un framework cont...

Una nuova ricerca sull’IA dall’...

Scalenut Recensione Il miglior generatore d...

AI