Ricercatori di Stanford e Mila propongono Hyena una sostituzione senza attenzione al blocco fondamentale di molti modelli di linguaggio su larga scala.

Ricercatori di Stanford e Mila propongono Hyena, una sostituzione senza attenzione al blocco fondamentale di molti modelli di linguaggio su larga scala.

Come tutti sappiamo, la corsa allo sviluppo e alla creazione di modelli generativi sbalorditivi come ChatGPT e Bard, e alla loro tecnologia sottostante come GPT3 e GPT4, ha preso il mondo dell’IA con una forza magnanima, ci sono ancora molte sfide quando si tratta dell’accessibilità, dell’addestramento e della fattibilità effettiva di questi modelli in molti casi d’uso che riguardano i nostri problemi quotidiani.

Se qualcuno si è mai divertito con uno di questi modelli sequenziali, c’è un problema certo che potrebbe aver rovinato la loro eccitazione. Vale a dire, la lunghezza dell’input che possono inviare per avviare il modello.

Se sono appassionati che vogliono cimentarsi nel cuore di queste tecnologie e addestrare il loro modello personalizzato, l’intero processo di ottimizzazione lo rende un compito impossibile.

Al centro di questi problemi si trova la natura quadratica dell’ottimizzazione dei modelli di attenzione che i modelli sequenziali utilizzano. Uno dei motivi principali è il costo computazionale di tali algoritmi e le risorse necessarie per risolvere questo problema. Può essere una soluzione estremamente costosa, soprattutto se qualcuno vuole scalare, il che porta solo poche organizzazioni concentrate ad avere una chiara comprensione e un vero controllo di tali algoritmi.

In parole semplici, l’attenzione mostra un costo quadratico in base alla lunghezza della sequenza. Limitare la quantità di contesto accessibile e scalare è un affare costoso.

Tuttavia, non preoccuparti; c’è una nuova architettura chiamata Hyena, che sta facendo scalpore nella comunità di NLP, e le persone la considerano il salvatore di cui abbiamo bisogno. Sfida la dominanza dei meccanismi di attenzione esistenti e il paper di ricerca ne dimostra il potenziale per rovesciare il sistema esistente.

Sviluppato da un team di ricercatori presso una prestigiosa università, Hyena vanta una prestazione impressionante su una serie di compiti NLP subquadratici in termini di ottimizzazione. In questo articolo, analizzeremo da vicino le affermazioni di Hyena.

Questo articolo suggerisce che gli operatori subquadratici possono eguagliare la qualità dei modelli di attenzione a livello senza essere così costosi in termini di parametri e costo di ottimizzazione. Sulla base di compiti di ragionamento mirato, gli autori distillano le tre proprietà più importanti che contribuiscono alla sua prestazione.

  1. Controllo dei dati
  2. Scaling dei parametri sublineari
  3. Contesto non limitato.

Affrontando questi punti, introducono quindi la gerarchia di Hyena. Questo nuovo operatore combina lunghe convoluzioni e gating moltiplicativo elemento per elemento per eguagliare la qualità dell’attenzione a livello riducendo al contempo il costo computazionale.

Gli esperimenti condotti rivelano risultati sbalorditivi.

  1. Modellazione del linguaggio.

La scalabilità di Hyena è stata testata nella modellazione del linguaggio autoregressiva, che, valutata in base alla perplessità sui dataset di riferimento WikiText103 e The Pile, ha rivelato che Hyena è la prima architettura di convoluzione senza attenzione in grado di eguagliare la qualità di GPT con una riduzione del 20% dei FLOPS totali.

Perplessità su WikiText103 (stesso tokenizzatore). ∗ sono i risultati da (Dao et al., 2022c). I modelli più profondi e sottili (Hyena-slim) ottengono una perplessità inferiore

Perplessità su The Pile per modelli addestrati fino a un numero totale di token, ad esempio 5 miliardi (diverse esecuzioni per ogni totale di token). Tutti i modelli utilizzano lo stesso tokenizzatore (GPT2). Il conteggio FLOP è per l’esecuzione di 15 miliardi di token

  1. Classificazione delle immagini su larga scala.

L’articolo dimostra il potenziale di Hyena come operatore di deep learning generale per la classificazione delle immagini. Sulla traduzione delle immagini, sostituiscono le attenzioni con l’operatore Hyena nel Vision Transformer(ViT) e ottengono prestazioni paragonabili a ViT.

Su CIFAR-2D, testiamo una versione in 2D di Hyena con filtri di convoluzione lunga in un’architettura convoluzionale standard, che migliora il modello S4ND (Nguyen et al., 2022) di convoluzione lunga in 2D in termini di accuratezza con un incremento di velocità del 8% e un riduzione dei parametri del 25%.

I risultati promettenti su una scala di parametri inferiore al miliardo suggeriscono che l’attenzione potrebbe non essere tutto ciò di cui abbiamo bisogno e che progettazioni più semplici e subquadratiche come Hyena, basate su semplici principi guida e valutazioni su benchmark di interpretabilità meccanicistica, costituiscono la base per modelli di grandi dimensioni efficienti.

Con l’impatto che questa architettura sta creando nella comunità, sarà interessante vedere se Hyena avrà l’ultima risata.