Insieme all’IA, viene presentato StripedHyena-7B un modello di intelligenza artificiale alternativo competitivo con i migliori Transformers open-source in valutazioni a breve e lungo contesto.

Insieme all'IA, viene presentato StripedHyena-7B, un modello di intelligenza artificiale alternativo che si pone come competitore dei migliori Transformers open-source nelle valutazioni a breve e lungo termine.

Insieme all’IA ha apportato un grande contributo all’architettura di modellazione sequenziale e ha introdotto i modelli StripedHyena. Ha rivoluzionato il campo offrendo alternative ai trasformatori convenzionali, concentrandosi sull’efficienza computazionale e sulle prestazioni migliorate. 

Questa versione include il modello di base StripedHyena-Hessian-7B (SH 7B) e il modello di chat StripedHyena-Nous-7B (SH-N 7B). StripedHyena si basa su importanti apprendimenti derivanti dalla creazione di architetture di modellazione sequenziale efficaci, come H3, Hyena, HyenaDNA e Monarch Mixer, che sono state realizzate lo scorso anno.

I ricercatori sottolineano che questo modello gestisce sequenze lunghe durante l’addestramento, il fine-tuning e la generazione con maggiore velocità ed efficienza di memoria. Utilizzando una tecnica ibrida, StripedHyena combina convoluzioni stralunate e attenzione in ciò che chiamano operatori Hyena. Questa è anche la prima architettura alternativa competitiva con forti modelli di base Transformer. Su compiti a breve contesto, inclusi i compiti di classifica OpenLLM, StripedHyena supera Llama-2 7B, Yi 7B e le alternative del Transformer più potenti, come RWKV 14B.

Il modello è stato valutato su vari benchmark nel gestire compiti a breve contesto e nell’elaborazione di prompt estesi. Gli esperimenti su scala di perplessità sui libri di Project Gutenberg rivelano che la perplessità o si satura a 32k o diminuisce oltre questo punto, suggerendo la capacità del modello di assimilare informazioni da prompt più lunghi.

StripedHyena ha ottenuto efficienza attraverso una struttura ibrida unica che combina attenzione e convoluzioni stralunate organizzate in operatori Hyena. Hanno utilizzato innovative tecniche di innesto per ottimizzare questa progettazione ibrida, consentendo la modifica dell’architettura durante l’addestramento.

I ricercatori hanno sottolineato che uno dei principali vantaggi di StripedHyena è la sua velocità e l’efficienza di memoria migliorate per varie attività come l’addestramento, il fine-tuning e la generazione di sequenze lunghe. Supera di oltre il 30%, il 50% e il 100% una linea di base del Transformer ottimizzata utilizzando FlashAttention v2 e kernel personalizzati nell’addestramento end-to-end su linee da 32k, 64k e 128k, rispettivamente.

In futuro, i ricercatori vogliono fare progressi significativi in diversi settori con i modelli StripedHyena. Vogliono creare modelli più grandi in grado di gestire contesti più lunghi, espandendo così i limiti della comprensione delle informazioni. Inoltre, vogliono incorporare supporto multimodale, aumentando l’adattabilità del modello consentendogli di elaborare e comprendere dati da diverse fonti, come testo e immagini.

Prima di tutto, vogliono addestrare modelli più grandi che possano gestire contesti più lunghi, espandendo così i limiti della comprensione delle informazioni. Vogliono anche migliorare le prestazioni dei modelli StripedHyena in modo che operino in modo più efficace ed efficiente.

In conclusione, il modello ha il potenziale per migliorare rispetto ai modelli Transformer introducendo calcoli aggiuntivi, come più teste nelle convoluzioni stralunate. Questo approccio, ispirato all’attenzione lineare, si è dimostrato efficace in architetture come H3 e MultiHyena, migliora la qualità del modello durante l’addestramento e fornisce vantaggi per l’efficienza di inferenza.