Una nuova ricerca sull’IA propone un encoder basato sulla struttura semplice ma efficace per l’apprendimento della rappresentazione delle proteine in base alle loro strutture tridimensionali.

Nuova ricerca sull'IA propone encoder per l'apprendimento della rappresentazione delle proteine basato sulla struttura tridimensionale.

Le proteine, l’energia della cellula, sono coinvolte in varie applicazioni, tra cui materiali e trattamenti. Sono composte da una catena di aminoacidi che si piega in una determinata forma. Di recente sono state scoperte un numero significativo di nuove sequenze proteiche grazie allo sviluppo di una tecnologia di sequenziamento a basso costo. Sono necessari metodi accurati ed efficaci di annotazione delle funzioni delle proteine in silico per colmare il divario attuale tra sequenza e funzione, poiché l’annotazione funzionale di una nuova sequenza proteica è ancora costosa e richiede tempo.

Molti approcci basati sui dati si basano sull’apprendimento delle rappresentazioni delle strutture proteiche perché molte funzioni delle proteine sono controllate dal modo in cui si piegano. Queste rappresentazioni possono quindi essere applicate a compiti come la progettazione delle proteine, la classificazione delle strutture, la valutazione della qualità del modello e la previsione della funzione.

Il numero di strutture proteiche pubblicate è di ordini di grandezza inferiore al numero di dataset in altri campi di applicazione dell’apprendimento automatico a causa della difficoltà nell’identificazione sperimentale delle strutture proteiche. Ad esempio, il Protein Data Bank ha 182.000 strutture confermate sperimentalmente, rispetto a 47 milioni di sequenze proteiche in Pfam e 10 milioni di immagini annotate in ImageNet. Diversi studi hanno utilizzato l’abbondanza di dati non etichettati delle sequenze proteiche per sviluppare una rappresentazione adeguata delle proteine esistenti al fine di colmare questo divario rappresentativo. Molti ricercatori hanno utilizzato l’apprendimento auto-supervisionato per preaddestrare gli encoder delle proteine su milioni di sequenze.

Recenti sviluppi nelle tecniche di previsione delle strutture proteiche basate sull’apprendimento profondo hanno reso possibile prevedere in modo efficace e sicuro le strutture di molte sequenze proteiche. Tuttavia, queste tecniche non catturano o utilizzano specificamente le informazioni sulla struttura delle proteine che sono note per determinare come le proteine funzionano. Sono state proposte molte codifiche delle proteine basate sulla struttura per utilizzare meglio le informazioni strutturali. Purtroppo, le interazioni tra i bordi, che sono cruciali nella simulazione della struttura delle proteine, non sono ancora state affrontate esplicitamente in questi modelli. Inoltre, a causa della scarsità di strutture proteiche stabilite sperimentalmente, fino a poco tempo fa è stato fatto relativamente poco lavoro per creare tecniche di preaddestramento che sfruttino le strutture 3D non etichettate.

Ispirati da questo progresso, creano un encoder delle proteine che può essere applicato a una serie di applicazioni di previsione delle proprietà e viene preaddestrato sulle strutture proteiche più fattibili. Suggeriscono un encoder basato sulla struttura semplice ma efficiente chiamato GeomEtry-Aware Relational Graph Neural Network, che effettua il passaggio dei messaggi relazionali sui grafi dei residui proteici dopo aver codificato le informazioni spaziali includendo vari bordi strutturali o sequenziali. Suggeriscono una tecnica di passaggio dei messaggi a bordo sparso per migliorare l’encoder delle strutture proteiche, che è il primo tentativo di implementare il passaggio dei messaggi a livello di bordo su GNN per la codifica delle strutture proteiche. La loro idea è stata ispirata dalla progettazione dell’attenzione triangolare in Evoformer.

Forniscono anche un approccio di preaddestramento geometrico basato sul noto framework di apprendimento contrastivo per apprendere l’encoder delle strutture proteiche. Suggeriscono funzioni di aumento innovative che migliorano la similarità tra le rappresentazioni acquisite di sottostrutture dalla stessa proteina riducendo quella tra quelle di proteine diverse per trovare sottostrutture proteiche collegate fisiologicamente che si verificano contemporaneamente nelle proteine. Suggeriscono contemporaneamente un insieme di linee guida semplici basate su auto-previsione.

Hanno stabilito una solida base per la preaddestramento delle rappresentazioni delle strutture proteiche confrontando i loro metodi di preaddestramento con diversi compiti di previsione delle proprietà a valle. Questi problemi di preaddestramento includono la previsione mascherata di varie proprietà geometriche o fisico-chimiche, come tipi di residui, distanze euclidee e angoli di dihedro. Numerosi test utilizzando una varietà di benchmark, come la previsione del numero di commissione degli enzimi, la previsione dei termini dell’ontologia dei geni, la classificazione delle pieghe e la classificazione delle reazioni, mostrano che GearNet potenziato con il passaggio dei messaggi a bordo può costantemente superare gli encoder delle proteine esistenti sulla maggior parte dei compiti in un ambiente supervisionato.

Inoltre, utilizzando la strategia di preaddestramento suggerita, il loro modello addestrato su meno di un milione di campioni ottiene risultati equivalenti o addirittura migliori rispetto agli encoder basati su sequenze più avanzati preaddestrati su dataset di un milione o miliardo. Il codice sorgente è disponibile pubblicamente su Github. È scritto in PyTorch e Torch Drug.