Abilitando la predizione di alta precisione della struttura delle proteine a livello del proteoma

'Predizione precisa della struttura proteica nel proteoma'

Il metodo AlphaFold

Molte innovative nel campo del machine learning contribuiscono al livello attuale di precisione di AlphaFold. Forniamo una panoramica generale del sistema di seguito; per una descrizione tecnica dell’architettura della rete, consultare il nostro articolo sui metodi di AlphaFold e in particolare la sua estesa Informazione Supplementare.

La rete AlphaFold è composta da due fasi principali. La Fase 1 prende in input la sequenza degli aminoacidi e un allineamento di sequenze multiple (MSA). Il suo obiettivo è apprendere una “rappresentazione a coppie” ricca di informazioni su quali coppie di residui siano vicine nello spazio tridimensionale.

La Fase 2 utilizza questa rappresentazione per produrre direttamente le coordinate atomiche trattando ciascun residuo come un oggetto separato, prevedendo la rotazione e la traduzione necessarie per posizionare ogni residuo e infine assemblando una catena strutturata. Il design della rete si basa sulle nostre intuizioni sulla fisica e la geometria delle proteine, ad esempio, nella forma degli aggiornamenti applicati e nella scelta della funzione di perdita.

È interessante notare che possiamo produrre una struttura tridimensionale basata sulla rappresentazione a livelli intermedi della rete. I video del “tracciato” risultante mostrano come la convinzione di AlphaFold sulla struttura corretta si sviluppa durante l’inferenza, livello per livello. Tipicamente, un’ipotesi emerge dopo i primi livelli seguita da un lungo processo di raffinamento, anche se alcuni obiettivi richiedono l’intera profondità della rete per ottenere una buona previsione.

Struttura prevista per gli obiettivi CASP14 T1044, T1024 e T1064 ai livelli successivi della rete. Le strutture sono colorate in base al numero di residui e il contatore mostra il livello corrente.:

Precisione e confidenza

AlphaFold è stato rigorosamente valutato nell’esperimento CASP14, nel quale i partecipanti prevedono in modo cieco le strutture proteiche che sono state risolte ma non ancora rese pubbliche. Il metodo ha raggiunto un’alta precisione nella maggior parte dei casi, con una media di 95% RMSD-Cα rispetto alla struttura sperimentale inferiore a 1Å. Nei nostri articoli, valutiamo ulteriormente il modello su un insieme molto più ampio di recenti voci del PDB. Tra le scoperte ci sono una forte performance su proteine di grandi dimensioni e una buona precisione delle catene laterali quando il backbone è ben previsto.

Precisione di AlphaFold a CASP14 rispetto ad altri metodi. RMSD-Cα basato sui migliori 95% dei residui predetti per ciascun obiettivo.

Un fattore importante nell’utilità delle previsioni delle strutture è la qualità delle misure di confidenza associate. Il modello può identificare le parti della sua previsione che sono probabilmente affidabili? Abbiamo sviluppato due misure di confidenza basate sulla rete AlphaFold per affrontare questa domanda.

La prima è pLDDT (predicted lDDT-Cα), una misura per residuo della confidenza locale su una scala da 0 a 100. pLDDT può variare drasticamente lungo una catena, consentendo al modello di esprimere alta confidenza su domini strutturati ma bassa confidenza sui link tra di essi, ad esempio. Nel nostro articolo, presentiamo prove che alcune regioni con basso pLDDT possono essere non strutturate in isolamento; o intrinsecamente disordinate o strutturate solo nel contesto di un complesso più ampio. Le regioni con pLDDT < 50 non dovrebbero essere interpretate se non come una possibile previsione di disordine.

La seconda metrica è PAE (Predicted Aligned Error), che riporta l’errore di posizione previsto da AlphaFold al residuo x, quando le strutture predette e vere sono allineate sul residuo y. Questo è utile per valutare la confidenza nelle caratteristiche globali, in particolare l’impacchettamento dei domini. Per i residui x e y presi da due domini diversi, un PAE costantemente basso a (x, y) suggerisce che AlphaFold è sicuro delle posizioni relative dei domini. Un PAE costantemente alto a (x, y) suggerisce che le posizioni relative dei domini non dovrebbero essere interpretate. L’approccio generale utilizzato per produrre PAE può essere adattato per prevedere una varietà di metriche basate sulla sovrapposizione, incluse TM-score e GDT.

Confidenza per residuo (pLDDT) ed Errore Allineato Previsto (PAE) per due proteine di esempio (P54725, Q5VSL9). Entrambe hanno domini individuali sicuri, ma la seconda ha anche posizioni relative di dominio sicure. Nota: Q5VSL9 è stata risolta dopo questa previsione.

Per sottolineare, i modelli di AlphaFold sono fondamentalmente previsioni: anche se spesso altamente accurate, a volte possono contenere errori. Le coordinate atomiche previste dovrebbero essere interpretate con attenzione, e nel contesto di queste misure di affidabilità.

Open sourcing

Insieme al nostro articolo sul metodo, abbiamo reso disponibile il codice sorgente di AlphaFold su GitHub. Questo include l’accesso a un modello addestrato e uno script per effettuare previsioni su sequenze di input nuove. Crediamo che questo sia un passo importante che permetterà alla comunità di utilizzare e sviluppare il nostro lavoro. Il modo più semplice per piegare una singola nuova proteina con AlphaFold è utilizzare il nostro notebook Colab.

Il codice open source è una versione aggiornata del nostro sistema CASP14 basato sul framework JAX, e raggiunge la stessa elevata precisione. Incorpora anche alcuni miglioramenti delle prestazioni recenti. La velocità di AlphaFold è sempre dipesa pesantemente dalla lunghezza della sequenza di input, con proteine corte che richiedono pochi minuti per essere processate e solo proteine molto lunghe che richiedono ore. Una volta che l’Allineamento Multiplo delle Sequenze (MSA) è stato assemblato, la versione open source può ora prevedere la struttura di una proteina di 400 residui in poco più di un minuto di tempo di GPU su una V100.

Scala del proteoma e AlphaFold DB

Le rapide tempi di inferenza di AlphaFold consentono l’applicazione del metodo su scala di intero proteoma. Nel nostro articolo, discutiamo delle previsioni di AlphaFold per il proteoma umano. Tuttavia, abbiamo successivamente generato previsioni per i proteomi di riferimento di numerosi organismi modello, patogeni e specie di rilevanza economica, e la previsione su larga scala è ora routine. Interessantemente, osserviamo una differenza nella distribuzione di pLDDT tra le specie, con una fiducia generalmente più elevata per batteri e archei e una fiducia più bassa per gli eucarioti, che ipotizziamo possa essere correlata alla prevalenza del disordine in questi proteomi.

Nessun singolo gruppo di ricerca può esplorare pienamente un dataset così grande, quindi ci siamo associati con EMBL-EBI per rendere le previsioni liberamente accessibili tramite AlphaFold DB. Ogni previsione può essere visualizzata insieme alle metriche di affidabilità descritte in precedenza. È inoltre disponibile un download completo per ogni specie, e tutti i dati sono coperti da una licenza CC-BY-4.0 (rendendoli liberamente disponibili sia per l’uso accademico che commerciale). Siamo estremamente grati a EMBL-EBI per il loro lavoro con noi nello sviluppare questa nuova risorsa. Nel corso dei prossimi mesi pianifichiamo di espandere il dataset per coprire oltre 100 milioni di proteine in UniRef90.

Esempio: previsioni AlphaFold DB da diverse specie.
Distribuzione della fiducia per residuo per 14 specie; da sinistra a destra: batteri / archei, animali e protisti.

In AlphaFold DB, abbiamo scelto di condividere previsioni di catene proteiche complete fino a 2700 aminoacidi di lunghezza, anziché ritagliare i domini individuali. La ragione è che ciò evita di perdere regioni strutturate che devono ancora essere annotate. Inoltre, fornisce contesto dalla sequenza completa degli aminoacidi e consente al modello di tentare una previsione del packing del dominio. L’accuratezza intra-dominio di AlphaFold è stata valutata in modo più approfondito in CASP14 ed è previsto che sia superiore alla sua accuratezza inter-dominio. Tuttavia, AlphaFold è stato il metodo con il punteggio più alto nella valutazione inter-dominio e ci aspettiamo che produca una previsione informativa in alcuni casi. Incoraggiamo gli utenti a visualizzare il grafico PAE per determinare se il posizionamento del dominio sia probabile essere significativo.

Lavori futuri

Siamo entusiasti del futuro della biologia strutturale computazionale. Rimangono molti argomenti importanti da affrontare: la previsione della struttura dei complessi, l’incorporazione di componenti non proteici e la cattura della dinamica e della risposta alle mutazioni puntiformi. Lo sviluppo di architetture di rete come AlphaFold che eccellono nel compito di comprendere la struttura delle proteine è motivo di ottimismo che possiamo progredire su problemi correlati.

Vediamo AlphaFold come una tecnologia complementare alla biologia strutturale sperimentale. Questo è forse meglio illustrato dal suo ruolo nell’aiutare a risolvere strutture sperimentali, attraverso il sostituto molecolare e l’accoppiamento in volumi di criomicroscopia elettronica. Entrambe le applicazioni possono accelerare la ricerca esistente, risparmiando mesi di sforzo. Dal punto di vista bioinformatico, la velocità di AlphaFold consente la generazione di strutture previste su una scala massiccia. Ciò ha il potenziale per aprire nuove vie di ricerca, supportando indagini strutturali sui contenuti di ampi database di sequenze.

In definitiva, speriamo che AlphaFold si dimostri uno strumento utile per illuminare lo spazio delle proteine, e non vediamo l’ora di vedere come verrà applicato nei prossimi mesi e anni.

Ci piacerebbe molto ricevere i vostri feedback e capire come AlphaFold e l’AlphaFold DB sono stati utili nella vostra ricerca. Condividete le vostre storie all’indirizzo [email protected].