Deep Learning per la Dinamica Biomolecolare su Larga Scala La Ricerca di Harvard Scala un Modello Allegro Preallenato su Vari Sistemi

Deep Learning per la Dinamica Biomolecolare su Larga Scala - Ricerca Harvard Modello Allegro Preallenato su Vari Sistemi

La biologia computazionale, la chimica e l’ingegneria dei materiali si basano sulla capacità di prevedere l’evoluzione temporale della materia a scala atomica. Mentre la meccanica quantistica governa le vibrazioni, la migrazione e la dissociazione dei legami degli atomi e degli elettroni a livello microscopico, i fenomeni che regolano i processi fisici e chimici osservabili spesso si verificano su scale di lunghezza e tempi considerevolmente più grandi. L’innovazione sia nelle architetture altamente parallelizzabili con accesso a processori exascale, sia nelle modalità di calcolo rapide e altamente accurate per catturare le interazioni quantistiche, è necessaria per colmare queste dimensioni. Le attuali approcci informatici non possono analizzare la complessità strutturale dei sistemi fisici e chimici realistici e la durata della loro evoluzione osservabile è troppo lunga per le simulazioni atomiche.

Negli ultimi due decenni sono stati condotti molti studi sugli MLIP (machine learning interatomic potentials). Le energie apprese e le forze dai dati di riferimento ad alta precisione vengono utilizzate per alimentare gli MLIP, che aumentano linearmente con il numero degli atomi. I primi tentativi hanno utilizzato un processo gaussiano o una semplice rete neurale in combinazione con descrittori realizzati manualmente. Gli MLIP iniziali avevano una scarsa precisione predittiva perché non potevano generalizzare le strutture dati che non erano presenti nell’addestramento, portando a simulazioni fragili che non potevano essere utilizzate altrove.

Nuove ricerche del laboratorio di Harvard dimostrano che i sistemi biomolecolari con fino a 44 milioni di atomi possono essere modellati con precisione SOTA utilizzando Allegro. Il team ha utilizzato un grande modello Allegro preaddestrato per sistemi con conteggi di atomi che vanno da 23.000 per DHFR a 91.000 per il fattore IX, 400.000 per la cellulosa, 44.000.000 per il cappside dell’HIV e oltre 100.000 per altri sistemi. Viene utilizzato un modello Allegro preaddestrato con 8 milioni di pesi, con un errore forzato di soli 26 meV/A ottenuto addestrando su 1 milione di strutture con accuratezza funzionale ibrida sull’eccezionale dataset SPICE. Sono possibili simulazioni exascale rapide di tratti di materiali precedentemente impensabili grazie al potenziale di apprendere l’intero insieme di materiali inorganici e molecole organiche a questa scala di dati. Si tratta di un modello molto grande e potente, con 8 milioni di pesi.

Per effettuare l’apprendimento attivo per la costruzione automatica di set di addestramento, i ricercatori hanno dimostrato che è possibile quantificare in modo efficiente l’incertezza delle previsioni dei modelli di deep equivariant per le forze e l’energia. Poiché i modelli equivarianti sono accurati, il collo di bottiglia dell’accuratezza si trova ora nei calcoli strutturali degli elettroni quantistici necessari per addestrare gli MLIP. Poiché i modelli a mistura gaussiana possono essere facilmente adattati in Allegro, sarà possibile eseguire simulazioni su larga scala consapevoli dell’incertezza con un singolo modello anziché un insieme.

Allegro è l’unico approccio scalabile che supera i tradizionali design basati su trasformatori e passaggio di messaggi. Su vari grandi sistemi, mostrano velocità massime di oltre 100 passi/secondo e i risultati si scalano su più di 100 milioni di atomi. Anche a una scala ampia di 44 milioni di atomi del cappside dell’HIV, dove i difetti sono generalmente molto più evidenti, le simulazioni sono stabili per nanosecondi. Il team ha avuto quasi nessun problema durante la produzione.

Per comprendere meglio la dinamica dei grandi sistemi biomolecolari e le interazioni a livello atomico tra proteine e medicinali, il team spera che il loro lavoro apra nuove strade nella biochimica e nella scoperta di farmaci.