Ricercatori di Stanford introducono HyenaDNA un modello di base genomica a lungo raggio con lunghezze di contesto fino a 1 milione di token a risoluzione di singolo nucleotide.
Ricercatori di Stanford presentano HyenaDNA, un modello genomico avanzato che copre fino a 1 milione di token con risoluzione di singolo nucleotide.
Negli ultimi anni ci sono stati rapidi progressi nel campo dell’intelligenza artificiale (IA) che hanno il potenziale di trasformare completamente le industrie e spingere i limiti di ciò che è possibile. Una delle aree che ha attirato molta attenzione da parte dei ricercatori è lo sviluppo di modelli più robusti ed efficienti per compiti di linguaggio naturale. In questo contesto, i ricercatori stanno costantemente cercando di sviluppare modelli capaci di gestire token più lunghi, poiché il numero di token in un modello determina la sua capacità di elaborare e comprendere il testo. Inoltre, un numero maggiore di token consente al modello di considerare un contesto più ampio, consentendogli di elaborare sequenze estese di dati. Tuttavia, per quanto riguarda i modelli di contesto lungo, la maggior parte dell’attenzione è stata rivolta al linguaggio naturale, mentre è stata trascurata una parte significativa del campo che si occupa inherentemente di sequenze lunghe: la genomica, che comprende lo studio di diversi aspetti del materiale genetico di un organismo, come la struttura, gli elementi evolutivi, ecc. Similmente all’approccio adottato nei modelli di linguaggio naturale, i ricercatori hanno proposto l’uso di modelli di base (FMs) nella genomica per acquisire caratteristiche generalizzabili dai dati genomici non strutturati. Questi FMs possono quindi essere sottoposti a fine-tuning per vari compiti, come la localizzazione dei geni, l’identificazione degli elementi regolatori, ecc.
Tuttavia, i modelli genomici esistenti basati sull’architettura Transformer affrontano sfide uniche quando si tratta di sequenze di DNA. Una tale limitazione è la scalabilità quadratica dell’attenzione, che limita la modellazione delle interazioni a lungo raggio all’interno del DNA. Inoltre, gli approcci prevalenti si basano su k-mer fissi e tokenizzatori per aggregare unità di DNA significative, spesso comportando una perdita delle caratteristiche individuali del DNA. Tuttavia, a differenza del linguaggio naturale, questa perdita è cruciale, poiché anche variazioni genetiche sottili possono influenzare profondamente le funzioni delle proteine. Hyena, un LLM recentemente introdotto, si è rivelato una promettente alternativa ai modelli basati sull’attenzione utilizzando convoluzioni implicite. Questo approccio innovativo ha dimostrato una qualità comparabile ai modelli basati sull’attenzione consentendo l’elaborazione di contesti più lunghi riducendo significativamente la complessità computazionale. Ispirati da questi risultati, un team di ricercatori delle università di Stanford e Harvard si è dedicato a indagare se le capacità di Hyena potessero essere sfruttate per catturare in modo efficace le dipendenze essenziali a lungo raggio e le caratteristiche individuali del DNA necessarie per analizzare le sequenze genomiche.
Ciò ha portato allo sviluppo di HyenaDNA, un FM genomico con una capacità senza precedenti di elaborare contesti di lunghezza fino a 1 milione di token a livello di singolo nucleotide, rappresentando un notevole aumento del 500x rispetto ai modelli basati sull’attenzione esistenti. Sfruttando il potere delle capacità a lungo raggio di Hyena, HyenaDNA mostra una scalabilità senza precedenti, addestrandosi fino a 160 volte più velocemente dei Transformer dotati di FlashAttention. HyenaDNA utilizza una pila di operatori Hyena come base per modellare il DNA e le sue intricate interazioni. Il modello utilizza l’apprendimento non supervisionato per imparare la distribuzione delle sequenze di DNA e comprendere come i geni sono codificati e come le regioni non codificanti svolgono funzioni regolatorie nell’espressione genica. Il modello si comporta eccezionalmente su diversi compiti genomics impegnativi come compiti di classificazione di specie a lungo raggio. Inoltre, raggiunge risultati all’avanguardia su 12 su 17 set di dati rispetto al Nucleotide Transformer, utilizzando modelli con un numero significativamente inferiore di parametri e dati di pre-training.
- Tutto ciò che riguarda i database vettoriali – la loro importanza, gli embedding vettoriali e i migliori database vettoriali per i modelli linguistici di grandi dimensioni (LLM)
- Nove regole per l’esecuzione di Rust sul Web e su dispositivi embedded
- Machine Learning reso intuitivo
Come già menzionato, durante il pre-training, HyenaDNA raggiunge una notevole lunghezza di contesto fino a 1 milione di token, consentendo al modello di catturare in modo efficace le dipendenze a lungo raggio all’interno delle sequenze genomiche. Inoltre, la capacità del modello è ulteriormente potenziata utilizzando la risoluzione a livello di singolo nucleotide e la tokenizzazione con contesto globale disponibile su ciascun livello. Per affrontare l’instabilità dell’addestramento e accelerare ulteriormente il processo, i ricercatori hanno introdotto anche un programmatore di riscaldamento della lunghezza delle sequenze, riducendo del 40% il tempo di addestramento per compiti correlati alla classificazione delle specie. Un altro vantaggio significativo di HyenaDNA è la sua efficienza dei parametri. I ricercatori fanno anche una scoperta rivoluzionaria riguardo alla relazione tra dimensione del modello e qualità, indicando che con sequenze più lunghe e un vocabolario più piccolo, HyenaDNA mostra prestazioni superiori nonostante la sua ridotta dimensione rispetto ai precedenti FMs genomici.
I ricercatori hanno valutato le prestazioni di HyenaDNA su diversi compiti secondari. Sul set di dati GenomicBenchmarks, i modelli pre-addestrati hanno ottenuto prestazioni all’avanguardia su tutti e otto i set di dati, superando nettamente gli approcci precedenti. Inoltre, sui benchmark del Nucleotide Transformer, HyenaDNA ha ottenuto risultati all’avanguardia su 12 su 17 set di dati con un numero notevolmente inferiore di parametri e meno dati di pre-training. Al fine di esplorare il potenziale dell’apprendimento in contesto (ICL) nella genomica, i ricercatori hanno condotto una serie di esperimenti. Hanno introdotto il concetto di token di prompt soft, consentendo all’input di guidare l’output di un modello HyenaDNA pre-addestrato congelato senza la necessità di aggiornare i pesi del modello o attaccare una testa di decodifica. Aumentando il numero di token di prompt soft, si è notevolmente migliorata l’accuratezza sui set di dati GenomicBenchmarks. Il modello ha inoltre dimostrato prestazioni eccezionali in compiti ad ultralungo raggio. HyenaDNA si è confrontato efficacemente con BigBird, un modello Transformer sparso all’avanguardia, in un compito impegnativo di profilo cromatinico. Inoltre, in un compito di classificazione di specie ad ultralungo raggio, il modello ha dimostrato la sua efficienza ottenendo risultati positivi quando la lunghezza del contesto è stata aumentata a 450 K e 1 M token.
Questi risultati mettono in evidenza le notevoli capacità di HyenaDNA nel gestire compiti genomici complessi e il suo potenziale nel trattare le dipendenze a lungo raggio e la differenziazione delle specie. Essi prevedono che questo progresso sarà cruciale nel guidare la scoperta di farmaci assistita dall’IA e le innovazioni terapeutiche. Inoltre, ha il potenziale per consentire ai modelli fondamentali genomici di apprendere e analizzare i genomi completi dei pazienti in modo personalizzato, migliorando ulteriormente la comprensione e l’applicazione della genomica.