Google DeepMind presenta un nuovo strumento di intelligenza artificiale che classifica gli effetti di 71 milioni di mutazioni missense

Google DeepMind presenta nuovo strumento IA che classifica effetti 71M mutazioni missense

La più grande sfida nella genetica umana è senza dubbio la complessità del genoma umano e la vasta diversità di fattori genetici che contribuiscono alla salute e alle malattie. Il genoma umano è composto da oltre 3 miliardi di coppie di basi e contiene non solo geni codificanti per proteine, ma anche regioni non codificanti che svolgono un ruolo cruciale nella regolazione e nella funzione dei geni. Comprendere i processi di questi elementi e le loro interazioni è un compito monumentale.

Sapere che una variante genetica associata a una malattia è solo l’inizio. Comprendere le conseguenze funzionali di queste varianti, come interagiscono con altri geni e il loro ruolo nella patologia delle malattie è un compito complesso e intensivo in termini di risorse. Analizzare le enormi quantità di dati genetici generati dalle tecnologie di sequenziamento ad alta intensità richiede strumenti computazionali e infrastrutture avanzate. La conservazione, la condivisione e l’analisi dei dati rappresentano notevoli sfide logistiche.

I ricercatori di Google DeepMind hanno sviluppato un catalogo AlphaMissense utilizzando un nuovo modello di intelligenza artificiale chiamato AlphaMissense, da loro creato. Esso comprende circa l’89% di tutte le 71 milioni di possibili varianti missenso suddivise in categorie patogeniche o benigni. Una variante missenso è una mutazione genetica che comporta una sostituzione di un singolo nucleotide in una sequenza di DNA. I nucleotidi sono i mattoni fondamentali del DNA e sono disposti in un ordine specifico. Questa sequenza contiene le informazioni genetiche fondamentali e la struttura proteica negli organismi viventi. In media, una persona porta più di 9000 varianti missenso.

Queste varianti missenso di classificazione ci aiutano a capire quali cambiamenti proteici danno origine alle malattie. Il loro modello attuale è allenato sui dati del loro modello precedente chiamato AlphaFold, che ha predetto le strutture per quasi tutte le proteine conosciute dalla sequenza degli amminoacidi. Tuttavia, AlphaMissense classifica solo il database delle sequenze proteiche e il contesto strutturale delle varianti per produrre punteggi tra 0 e 1. Un punteggio di 1 indica che la struttura è molto probabilmente patogena. Per una determinata sequenza, i punteggi vengono analizzati per scegliere una soglia per classificare le varianti.

AlphaMissense supera tutti gli altri metodi e modelli computazionali. Il loro modello è anche il metodo più accurato per prevedere i risultati di laboratorio, riflettendo la coerenza con diverse modalità di misurazione della patogenicità. Utilizzando questo modello, gli utenti possono ottenere un’anteprima dei risultati per migliaia di proteine contemporaneamente, il che può aiutare a prioritizzare le risorse e accelerare il campo di studio. Su oltre 4 milioni di varianti missenso osservate negli esseri umani, solo il 2% è stato annotato come patogeno o benigno dagli esperti, circa lo 0,1% di tutte le 71 milioni di possibili varianti missenso.

È importante notare che la genetica umana sta evolvendo rapidamente e gli avanzamenti nella tecnologia, nell’analisi dei dati e nella nostra comprensione dei meccanismi genetici continuano a affrontare queste sfide. Sebbene queste sfide siano significative, presentano anche eccitanti opportunità per migliorare la salute umana e la medicina personalizzata attraverso la ricerca genetica. Decodificare i genomi di vari organismi fornisce anche informazioni sull’evoluzione.