Prevedere l’espressione dei geni con l’IA

'Predire l'espressione genica con l'IA'

Basato su Transformers, la nostra nuova architettura Enformer avanza la ricerca genetica migliorando la capacità di predire come la sequenza del DNA influenza l’espressione genica.

Quando il Progetto Genoma Umano è riuscito a mappare la sequenza del DNA del genoma umano, la comunità internazionale di ricerca era entusiasta dell’opportunità di comprendere meglio le istruzioni genetiche che influenzano la salute e lo sviluppo umani. Il DNA contiene le informazioni genetiche che determinano tutto, dal colore degli occhi alla suscettibilità a determinate malattie e disturbi. Le circa 20.000 sezioni di DNA presenti nel corpo umano, chiamate geni, contengono istruzioni sulla sequenza degli amminoacidi delle proteine, che svolgono numerose funzioni essenziali nelle nostre cellule. Tuttavia, questi geni costituiscono meno del 2% del genoma. Le altre coppie di basi, che rappresentano il 98% delle 3 miliardi di “lettere” del genoma, sono chiamate “non codificanti” e contengono istruzioni meno comprese su quando e dove i geni dovrebbero essere prodotti o espressi nel corpo umano. Da DeepMind, crediamo che l’AI possa sbloccare una comprensione più profonda di tali domini complessi, accelerando il progresso scientifico e offrendo potenziali benefici per la salute umana.

Oggi Nature Methods ha pubblicato “Effective gene expression prediction from sequence by integrating long-range interactions” (in precedenza condiviso come preprint su bioRxiv), in cui noi – in collaborazione con i nostri colleghi di Alphabet presso Calico – introduciamo un’architettura di rete neurale chiamata Enformer che ha portato a un aumento significativo dell’accuratezza nella previsione dell’espressione genica dalla sequenza del DNA. Per promuovere ulteriori studi sulla regolazione genica e sui fattori causali delle malattie, abbiamo reso disponibile il nostro modello e le sue previsioni iniziali su varianti genetiche comuni in modo aperto qui.

Lavori precedenti sull’espressione genica hanno solitamente utilizzato reti neurali convoluzionali come blocchi fondamentali, ma i loro limiti nella modellazione dell’influenza degli enhancer distali sull’espressione genica hanno ostacolato la loro accuratezza e applicazione. Le nostre prime esplorazioni si sono basate su Basenji2, che poteva prevedere l’attività regolatoria da sequenze di DNA relativamente lunghe di 40.000 coppie di basi. Motivati da questo lavoro e dalla conoscenza che gli elementi del DNA regolatori possono influenzare l’espressione a distanze maggiori, abbiamo ritenuto necessario un cambiamento architettonico fondamentale per catturare sequenze lunghe.

Abbiamo sviluppato un nuovo modello basato su Transformers, comuni nell’elaborazione del linguaggio naturale, per utilizzare meccanismi di autoattenzione che potessero integrare un contesto del DNA molto più ampio. Poiché i Transformers sono ideali per esaminare lunghi passaggi di testo, li abbiamo adattati per “leggere” sequenze di DNA estese in modo significativo. Elaborando efficacemente sequenze per considerare interazioni a distanze che sono più di 5 volte (cioè 200.000 coppie di basi) la lunghezza dei metodi precedenti, la nostra architettura può modellare l’influenza di importanti elementi regolatori chiamati enhancer sull’espressione genica da distanze maggiori all’interno della sequenza del DNA.

Enformer è addestrato a prevedere dati genomici funzionali, inclusa l'espressione genica, da 200.000 coppie di basi di DNA in ingresso. L'esempio sopra riportato presenta tre delle oltre 5.000 possibili tracce genomiche. Utilizzando moduli di trasformazione, che raccolgono informazioni sull'intera sequenza utilizzando l'attenzione, siamo in grado di considerare efficacemente sequenze di input molto più lunghe rispetto ai modelli precedenti.

Per comprendere meglio come Enformer interpreta la sequenza del DNA per ottenere previsioni più accurate, abbiamo utilizzato punteggi di contributo per evidenziare le parti della sequenza di input più influenti per la previsione. In linea con l’intuizione biologica, abbiamo osservato che il modello ha prestato attenzione agli enhancer anche se si trovavano a più di 50.000 coppie di basi dal gene. La previsione di quali enhancer regolano quali geni rimane un problema irrisolto di rilievo in genomica, quindi siamo stati lieti di vedere che i punteggi di contributo di Enformer si comportano in modo comparabile con i metodi esistenti sviluppati appositamente per questo compito (utilizzando dati sperimentali come input). Enformer ha anche appreso gli elementi isolanti, che separano due regioni di DNA regolate in modo indipendente.

Enformer si concentra su regioni del DNA regolatorie rilevanti (mostrate in blu) chiamate enhancer (caselle grigie) anche a distanze superiori a 20.000 coppie di basi dal gene grazie a un campo di ricezione più ampio.

Anche se ora è possibile studiare l’intero DNA di un organismo, sono necessari complessi esperimenti per comprendere il genoma. Nonostante un enorme sforzo sperimentale, la maggior parte del controllo del DNA sulla regolazione dell’espressione genica rimane un mistero. Con l’IA, possiamo esplorare nuove possibilità per individuare modelli nel genoma e fornire ipotesi meccanistiche sulle modifiche della sequenza. Simile a un correttore di bozze, Enformer comprende parzialmente il vocabolario della sequenza del DNA e può quindi evidenziare modifiche che potrebbero portare a un’alterata espressione genica.

La principale applicazione di questo nuovo modello è prevedere quali modifiche alle lettere del DNA, chiamate anche varianti genetiche, altereranno l’espressione del gene. Rispetto ai modelli precedenti, Enformer è significativamente più accurato nel prevedere gli effetti delle varianti sull’espressione genica, sia nel caso di varianti genetiche naturali che di varianti sintetiche che alterano importanti sequenze regolatrici. Questa proprietà è utile per interpretare il crescente numero di varianti associate a malattie ottenute da studi di associazione a livello genomico. Le varianti associate a malattie genetiche complesse sono prevalentemente localizzate nella regione non codificante del genoma, probabilmente causando la malattia attraverso l’alterazione dell’espressione genica. Ma a causa delle correlazioni intrinseche tra le varianti, molte di queste varianti associate a malattie sono solo correlazioni spurie anziché causali. Gli strumenti computazionali possono ora aiutare a distinguere le vere associazioni dai falsi positivi.

La variante rs11644125, situata nel gene di risposta immunitaria NLRC5, è associata a livelli più bassi di monociti e linfociti nel sangue bianco. Mutando sistematicamente ogni posizione circostante la variante e prevedendo il cambiamento risultante sull'espressione genica di NLRC5 (mostrato come altezza della lettera), abbiamo osservato che la variante porta a una minore espressione complessiva di NLRC5 e modula il motivo di legame noto di un fattore di trascrizione chiamato SP1. Pertanto, le previsioni di Enformer suggeriscono che il meccanismo biologico dietro l'effetto di questa variante sui conteggi dei globuli bianchi sia una minore espressione genica di NLRC5 a causa di un legame SP1 perturbato.

Siamo lontani dal risolvere gli innumerevoli enigmi che rimangono nel genoma umano, ma Enformer è un passo avanti nella comprensione della complessità delle sequenze genomiche. Se sei interessato a utilizzare l’IA per esplorare il funzionamento dei processi cellulari fondamentali, come sono codificati nella sequenza del DNA e come costruire nuovi sistemi per avanzare nella genomica e nella nostra comprensione delle malattie, stiamo assumendo. Siamo inoltre ansiosi di ampliare le nostre collaborazioni con altri ricercatori e organizzazioni desiderosi di esplorare modelli computazionali per contribuire a risolvere le domande aperte al centro della genomica.