AlphaFold una soluzione a una grande sfida biologica di 50 anni

AlphaFold una soluzione a una sfida biologica di 50 anni.

A luglio 2022, abbiamo rilasciato le previsioni sulla struttura delle proteine AlphaFold per quasi tutte le proteine catalogate conosciute dalla scienza. Leggi l’ultimo blog qui.

Le proteine sono essenziali per la vita, supportando praticamente tutte le sue funzioni. Sono grandi molecole complesse, composte da catene di amminoacidi, e ciò che una proteina fa dipende principalmente dalla sua unica struttura tridimensionale. Capire in che forma si piegano le proteine è noto come “problema del ripiegamento delle proteine” ed è stato un grande sfida in biologia negli ultimi 50 anni. In un importante progresso scientifico, l’ultima versione del nostro sistema di intelligenza artificiale, AlphaFold, è stata riconosciuta come soluzione a questa grande sfida dagli organizzatori della biennale Critical Assessment of protein Structure Prediction (CASP). Questo traguardo dimostra l’impatto che l’intelligenza artificiale può avere sulla scoperta scientifica e il suo potenziale per accelerare notevolmente il progresso in alcuni dei campi più fondamentali che spiegano e plasmano il nostro mondo.

La forma di una proteina è strettamente legata alla sua funzione e la capacità di prevedere questa struttura porta a una maggiore comprensione di ciò che fa e come funziona. Molti dei più grandi problemi del mondo, come lo sviluppo di trattamenti per le malattie o la ricerca di enzimi che scompongono i rifiuti industriali, sono fondamentalmente legati alle proteine e al ruolo che svolgono.

Siamo rimasti bloccati su questo problema – come si piegano le proteine – per quasi 50 anni. Vedere DeepMind produrre una soluzione per questo, dopo aver lavorato personalmente su questo problema per tanto tempo e dopo tante difficoltà, chiedendoci se ci saremmo mai arrivati, è un momento molto speciale. – Professor John Moult, Co-fondatore e Presidente di CASP, University of Maryland

Questo è stato oggetto di intensa ricerca scientifica per molti anni, utilizzando una varietà di tecniche sperimentali per esaminare e determinare le strutture delle proteine, come la risonanza magnetica nucleare e la cristallografia a raggi X. Queste tecniche, così come i metodi più recenti come la microscopia crioelettronica, dipendono da estese prove ed errori, che possono richiedere anni di lavoro laborioso e richiedere l’uso di apparecchiature specializzate dal valore di milioni di dollari.

Il “problema del ripiegamento delle proteine”

Nel suo discorso di accettazione del Premio Nobel per la Chimica del 1972, Christian Anfinsen ha postulato famosamente che, in teoria, la sequenza di amminoacidi di una proteina dovrebbe determinare completamente la sua struttura. Questa ipotesi ha dato il via a una ricerca di cinque decenni per essere in grado di prevedere computazionalmente la struttura tridimensionale di una proteina basandosi esclusivamente sulla sua sequenza di amminoacidi 1D come alternativa complementare a questi costosi e lunghi metodi sperimentali. Una grande sfida, tuttavia, è che il numero di modi in cui una proteina potrebbe teoricamente piegarsi prima di stabilirsi nella sua struttura tridimensionale finale è astronomico. Nel 1969 Cyrus Levinthal ha notato che ci vorrebbe più tempo dell’età dell’universo conosciuto per enumerare tutte le possibili configurazioni di una proteina tipica mediante calcolo a forza bruta – Levinthal ha stimato 10^300 possibili conformazioni per una proteina tipica. Tuttavia, in natura, le proteine si piegano spontaneamente, alcune entro millisecondi – una dicotomia talvolta definita come il paradosso di Levinthal.

Risultati dall’assessment CASP14

Nel 1994, il Professor John Moult e il Professor Krzysztof Fidelis hanno fondato CASP come una valutazione cieca biennale per catalizzare la ricerca, monitorare il progresso e stabilire lo stato dell’arte nella previsione della struttura delle proteine. È sia lo standard di riferimento per valutare le tecniche predittive che una comunità globale unica basata sullo sforzo condiviso. Crucialmente, CASP sceglie le strutture proteiche che sono state determinate sperimentalmente solo di recente (alcune erano ancora in attesa di determinazione al momento della valutazione) come obiettivi per i team per testare i loro metodi di previsione della struttura; non vengono pubblicate in anticipo. I partecipanti devono prevedere ciecamente la struttura delle proteine e queste previsioni vengono successivamente confrontate con i dati sperimentali veri e propri quando diventano disponibili. Siamo grati agli organizzatori di CASP e a tutta la comunità, in particolare agli sperimentatori le cui strutture permettono questa rigorosa valutazione.

La principale misura utilizzata da CASP per misurare l’accuratezza delle previsioni è il Test della Distanza Globale (GDT) che varia da 0 a 100. In termini semplici, GDT può essere approssimativamente considerato come la percentuale di residui di amminoacidi (perle nella catena proteica) entro una distanza limite dalla posizione corretta. Secondo il Professor Moult, un punteggio di circa 90 GDT è considerato informalmente competitivo con i risultati ottenuti dai metodi sperimentali.

Nei risultati della 14ª valutazione CASP, pubblicati oggi, il nostro ultimo sistema AlphaFold ottiene un punteggio mediano di 92,4 GDT complessivamente su tutti gli obiettivi. Ciò significa che le nostre previsioni hanno un errore medio (RMSD) di circa 1,6 Angstrom, che è paragonabile alla larghezza di un atomo (o 0,1 nanometri). Anche per gli obiettivi proteici più difficili, quelli nella categoria di libera modellazione più impegnativa, AlphaFold raggiunge un punteggio mediano di 87,0 GDT (dati disponibili qui).

Miglioramenti nella precisione mediana delle previsioni nella categoria di modellazione libera per il miglior team in ciascun CASP, misurata come best-of-5 GDT.
Due esempi di obiettivi proteici nella categoria di modellazione libera. AlphaFold predice strutture altamente accurate misurate rispetto al risultato sperimentale.

Questi entusiasmanti risultati aprono la possibilità per i biologi di utilizzare la previsione computazionale delle strutture come strumento principale nella ricerca scientifica. I nostri metodi potrebbero rivelarsi particolarmente utili per importanti classi di proteine, come le proteine di membrana, che sono molto difficili da cristallizzare e quindi complesse da determinare sperimentalmente.

Questo lavoro computazionale rappresenta un notevole avanzamento nel problema della piegatura delle proteine, una sfida di 50 anni nel campo della biologia. È avvenuto decenni prima di quanto molte persone nel settore avrebbero previsto. Sarà emozionante vedere i molti modi in cui cambierà radicalmente la ricerca biologica. – Professor Venki Ramakrishnan, Premio Nobel e Presidente della Royal Society

Il nostro approccio al problema della piegatura delle proteine

Abbiamo partecipato per la prima volta al CASP13 nel 2018 con la nostra versione iniziale di AlphaFold, che ha raggiunto la massima precisione tra i partecipanti. Successivamente, abbiamo pubblicato un articolo sui nostri metodi CASP13 su Nature, con il codice associato, che ha ispirato altri lavori e implementazioni open source sviluppate dalla comunità. Ora, nuove architetture di deep learning che abbiamo sviluppato hanno portato a cambiamenti nei nostri metodi per il CASP14, consentendoci di raggiungere livelli di precisione senza precedenti. Questi metodi traggono ispirazione dai campi della biologia, della fisica e dell’apprendimento automatico, oltre al lavoro di molti scienziati nel campo della piegatura delle proteine negli ultimi cinquant’anni.

Una proteina ripiegata può essere considerata come un “grafo spaziale”, in cui i residui sono i nodi e gli archi collegano i residui in prossimità. Questo grafo è importante per comprendere le interazioni fisiche all’interno delle proteine, così come la loro storia evolutiva. Per l’ultima versione di AlphaFold, utilizzata al CASP14, abbiamo creato un sistema di rete neurale basato sull’attenzione, addestrato end-to-end, che cerca di interpretare la struttura di questo grafo, ragionando sul grafo implicito che sta costruendo. Utilizza sequenze evolutivamente correlate, allineamento multiplo di sequenze (MSA) e una rappresentazione di coppie di residui di aminoacidi per raffinare questo grafo.

Iterando questo processo, il sistema sviluppa previsioni accurate sulla struttura fisica sottostante della proteina ed è in grado di determinare strutture altamente accurate in pochi giorni. Inoltre, AlphaFold può predire quali parti di ciascuna struttura proteica prevista sono affidabili utilizzando una misura di confidenza interna.

Abbiamo addestrato questo sistema su dati pubblicamente disponibili che consistono in circa 170.000 strutture proteiche dal protein data bank insieme a grandi database contenenti sequenze proteiche di struttura sconosciuta. Utilizza circa 16 TPUv3 (che corrispondono a 128 core TPUv3 o approssimativamente a ~100-200 GPU) eseguiti in poche settimane, una quantità relativamente modesta di calcolo nel contesto della maggior parte dei modelli di ultima generazione utilizzati nell’apprendimento automatico oggi. Come per il nostro sistema AlphaFold CASP13, stiamo preparando un articolo sul nostro sistema da inviare a una rivista sottoposta a revisione paritaria a tempo debito.

Panoramica dell'architettura principale del modello di rete neurale. Il modello opera su sequenze proteiche evolutivamente correlate oltre che su coppie di residui di aminoacidi, passando iterativamente informazioni tra entrambe le rappresentazioni per generare una struttura.

Il potenziale di impatto nel mondo reale

Quando DeepMind è stato fondato dieci anni fa, speravamo che un giorno le scoperte dell’IA potessero servire come piattaforma per far avanzare la nostra comprensione dei problemi scientifici fondamentali. Ora, dopo 4 anni di sforzi nella costruzione di AlphaFold, stiamo iniziando a vedere questa visione realizzata, con implicazioni in settori come la progettazione di farmaci e la sostenibilità ambientale.

Il professor Andrei Lupas, direttore dell’Istituto Max Planck per la biologia dello sviluppo e valutatore di CASP, ci ha informato che, “i modelli straordinariamente precisi di AlphaFold ci hanno permesso di risolvere una struttura proteica su cui eravamo bloccati da quasi un decennio, riavviando il nostro sforzo per comprendere come i segnali vengano trasmessi attraverso le membrane cellulari.”

Siamo ottimisti sull’impatto che AlphaFold può avere sulla ricerca biologica e sul mondo in generale, e siamo entusiasti di collaborare con altri per saperne di più sul suo potenziale nei prossimi anni. Oltre a lavorare su un articolo sottoposto a revisione paritaria, stiamo esplorando come fornire un accesso più ampio al sistema in modo scalabile.

Nel frattempo, stiamo anche valutando come le previsioni sulla struttura delle proteine potrebbero contribuire alla nostra comprensione di specifiche malattie con un numero limitato di gruppi specialistici, ad esempio aiutando a identificare proteine che hanno malfunzionamenti e a ragionare su come interagiscono. Queste intuizioni potrebbero consentire un lavoro più preciso nello sviluppo dei farmaci, integrando i metodi sperimentali esistenti per trovare trattamenti promettenti più rapidamente.

AlphaFold è un avvenimento eccezionale, che prevede la struttura delle proteine con incredibile velocità e precisione. Questo grande passo avanti dimostra come i metodi computazionali siano pronti a trasformare la ricerca in biologia e offrano grandi promesse per accelerare il processo di scoperta dei farmaci. – Arthur D. Levinson, PhD, Fondatore e CEO di Calico, Ex Presidente e CEO di Genentech

Abbiamo anche visto segnali che la previsione della struttura delle proteine potrebbe essere utile per gli sforzi futuri di risposta alle pandemie, come uno dei molti strumenti sviluppati dalla comunità scientifica. All’inizio di quest’anno abbiamo previsto diverse strutture proteiche del virus SARS-CoV-2, tra cui ORF3a, le cui strutture erano precedentemente sconosciute. A CASP14, abbiamo previsto la struttura di un’altra proteina del coronavirus, ORF8 . Il lavoro estremamente rapido degli sperimentatori ha ora confermato le strutture sia di ORF3a che di ORF8 . Nonostante la loro natura complessa e poche sequenze correlate, abbiamo ottenuto un alto grado di precisione su entrambe le nostre previsioni confrontate con le loro strutture determinate sperimentalmente.

Oltre ad accelerare la comprensione delle malattie conosciute, siamo entusiasti delle potenzialità di queste tecniche nel esplorare i centinaia di milioni di proteine per le quali non abbiamo attualmente modelli – un vasto territorio di biologia sconosciuta. Poiché il DNA specifica le sequenze di aminoacidi che compongono le strutture proteiche, la rivoluzione genomica ha reso possibile leggere le sequenze proteiche dal mondo naturale su vasta scala – con 180 milioni di sequenze proteiche e in continua crescita nel database delle proteine universali ( UniProt ). In contrasto, dati i lavori sperimentali necessari per passare dalla sequenza alla struttura, solo circa 170.000 strutture proteiche sono presenti nel Protein Data Bank ( PDB ). Tra le proteine non determinate potrebbero esserci alcune con funzioni nuove ed eccitanti e – così come un telescopio ci aiuta a vedere più a fondo nell’universo sconosciuto – tecniche come AlphaFold potrebbero aiutarci a trovarle.

Sblocchi nuove possibilità

AlphaFold è uno dei nostri progressi più significativi fino ad oggi, ma, come per tutta la ricerca scientifica, ci sono ancora molte domande da rispondere. Non tutte le strutture che prevediamo saranno perfette. C’è ancora molto da imparare, incluso come più proteine formino complessi, come interagiscano con DNA , RNA o piccole molecole e come possiamo determinare la posizione precisa di tutti i gruppi laterali degli aminoacidi. In collaborazione con gli altri, c’è anche molto da imparare su come utilizzare al meglio queste scoperte scientifiche nello sviluppo di nuovi medicinali, modi per gestire l’ambiente e altro ancora.

Per tutti noi che lavoriamo su metodi computazionali e di apprendimento automatico in ambito scientifico, sistemi come AlphaFold dimostrano il potenziale sorprendente dell’IA come strumento per agevolare la scoperta fondamentale. Proprio come 50 anni fa Anfinsen ha posto una sfida al di là della portata della scienza dell’epoca, ci sono molti aspetti del nostro universo che rimangono sconosciuti. I progressi annunciati oggi ci danno ulteriore fiducia che l’IA diventerà uno degli strumenti più utili dell’umanità per ampliare i confini della conoscenza scientifica, e non vediamo l’ora dei molti anni di duro lavoro e scoperte che ci attendono!