Microsoft AI Research introduce un nuovo framework di deep learning chiamato Distributional Graphormer (DiG) per prevedere la distribuzione di equilibrio dei sistemi molecolari.

Microsoft AI Research introduce DiG, un nuovo framework di deep learning per prevedere la distribuzione di equilibrio dei sistemi molecolari.

La struttura di una molecola determina le sue proprietà e funzioni. Ecco perché la previsione della struttura è una questione fondamentale nella scienza molecolare. Gli scienziati molecolari stanno celebrando l’alta precisione delle approcci di deep learning come AlphaFold e RoseTTAFold nell’identificare le strutture più probabili per le proteine a partire dalle loro sequenze di amminoacidi. Tuttavia, la previsione strutturale può fornire solo un quadro parziale della funzione di una proteina e questo metodo fornisce solo una singola istantanea.

Recenti ricerche di Microsoft presentano Distributional Graphormer (DiG), un nuovo framework di deep learning per la previsione della struttura delle proteine basato sulla distribuzione di equilibrio. Spera di risolvere questo problema fondamentale e dare una spinta alla scienza molecolare. DiG rappresenta un importante passo avanti nella modellazione di insiemi di strutture secondo distribuzioni di equilibrio, anziché solo una. Grazie alla sua capacità di anticipare le distribuzioni, la meccanica statistica e la termodinamica, che regolano i sistemi molecolari a livello microscopico, possono essere applicate ai loro aspetti macroscopici.

DiG migliora il loro lavoro precedente, Graphormer, un trasformatore di grafi di uso generale che può descrivere accuratamente le strutture molecolari, per fornire un nuovo approccio alla previsione delle distribuzioni. DiG, una versione migliorata di Graphormer, può ora prevedere direttamente la distribuzione target dai descrittori molecolari fondamentali utilizzando reti neurali profonde, una capacità nuova e potente.

Si basa sul concetto di raffreddamento simulato, una tecnica ben consolidata nella termodinamica e nell’ottimizzazione che ha ispirato la creazione di modelli di diffusione che hanno portato a progressi significativi nel campo dei contenuti generati artificialmente (AIGC) negli ultimi anni. Attraverso la modellazione di un processo di raffreddamento, una distribuzione semplice viene gradualmente perfezionata per costruire una distribuzione complessa, permettendole di esplorare e stabilizzarsi negli stati più probabili. DiG è un framework di deep learning per i sistemi molecolari che simula questa procedura. I modelli di diffusione, originati nella meccanica statistica e nella termodinamica, sono spesso utilizzati come base per i modelli di AIGC.

Utilizzando Graphormer per convertire una distribuzione semplice in una distribuzione complessa, DiG si basa sulla diffusione. I dati o le informazioni utilizzate per addestrare DiG sono flessibili. Riducendo al minimo la differenza tra le probabilità basate sull’energia e le probabilità previste da DiG, le funzioni di energia dei sistemi molecolari possono essere utilizzate da DiG per guidare la trasformazione. Per insegnare a DiG, questo metodo può attingere alle conoscenze esistenti del sistema.

Attraverso una serie di compiti di campionamento molecolare che coprono una vasta gamma di sistemi molecolari, tra cui proteine, complessi proteina-ligando e sistemi catalizzatore-adsorbato, il team dimostra l’efficacia e la promessa di DiG. I risultati mostrano che DiG non solo produce in modo efficiente e a basso costo strutture molecolari realistiche e variegate, ma fornisce anche stime delle densità di stato, che sono essenziali per il calcolo delle proprietà macroscopiche utilizzando la meccanica statistica.

Il team ritiene che DiG rappresenti un importante passo avanti nell’analisi quantitativa delle molecole microscopiche e nella previsione delle loro caratteristiche macroscopiche, aprendo la strada a molte nuove e affascinanti linee di indagine nella scienza molecolare.