Sconfitta la barriera nel design delle proteine con un nuovo modello di intelligenza artificiale che comprende le interazioni con qualsiasi tipo di molecola.

A new AI model overcomes protein design barrier by understanding interactions with any kind of molecule.

Questo nuovo modello potrebbe aiutare a espandere l’applicabilità dei modelli di apprendimento automatico per l’ingegneria di proteine con funzioni desiderate regolando le loro interazioni specifiche con altre molecole di qualsiasi tipo, influenzando efficacemente la biotecnologia e le applicazioni cliniche

Concept art on “protein engineering” created by the author by editing Dall-E-2 generations (originally used here ).

Dopo la rivoluzione iniziata da AlphaFold di Deepmind in biologia strutturale, il campo strettamente correlato del design delle proteine è entrato più recentemente in una nuova era di progressi attraverso la potenza del deep learning. Tuttavia, i modelli esistenti di apprendimento automatico (ML) per il design delle proteine sono stati limitati nella loro capacità di incorporare entità non proteiche nel processo di progettazione, gestendo solo i componenti proteici. Nel nostro nuovo preprint, presentiamo un nuovo modello di deep learning, “CARBonAra”, che considera qualsiasi tipo di ambiente molecolare circostante la proteina e può quindi progettare proteine che si legano a qualsiasi tipo di molecola: ligandi simili a farmaci, cofattori, substrati, acidi nucleici o persino altre proteine. Sfruttando un’architettura di trasformazione geometrica del nostro precedente modello di ML, CARBonAra prevede sequenze di proteine ​​da scheletri di base pur essendo consapevole dei vincoli imposti dalle molecole di qualsiasi natura. Questo approccio innovativo potrebbe contribuire ad espandere la versatilità dei modelli di ML per l’ingegneria di proteine con funzioni desiderate regolando interazioni specifiche con altri componenti cellulari di qualsiasi tipo.

Scheme outlining what this new deep-learned model can do: compute amino acid probabilities for protein design starting from a target protein backbone surrounded by other molecule(s) within binding distance (here exemplified with the green molecule on top). Picture produced by the author.

Introduzione

Come scienziati dei dati, cerchiamo costantemente di spingere i limiti di ciò che è possibile. Il design delle proteine, ovvero la creazione di nuove proteine ​​con funzioni e proprietà desiderate, è un’area d’azione con profonde implicazioni in vari campi, dalla biologia e la medicina alla biotecnologia e la scienza dei materiali. Mentre i metodi basati sulla fisica hanno fatto progressi nella ricerca di sequenze di aminoacidi che si piegano in una data struttura proteica, le tecniche di deep learning sono emerse come cambiamenti di gioco, aumentando significativamente i tassi di successo e la versatilità del design.

Ho discusso di quattro moderni modelli di ML per il design e l’ingegneria delle proteine ​​qui:

L’era del machine learning per il design delle proteine, riassunta in quattro metodi chiave

Mai tempi così entusiasmanti per la biotecnologia delle proteine, grazie a questi metodi e strumenti basati sull’intelligenza artificiale

towardsdatascience.com

Anche se questi modelli hanno avuto successo in molte attività di progettazione delle proteine, sono limitati nella loro capacità di considerare entità non proteiche durante il processo di progettazione: semplicemente non possono gestirle, una limitazione che influenza la loro versatilità e restringe il loro campo di applicazione.

Per superare questa sfida, presentiamo nel nostro ultimo preprint un nuovo modello chiamato CARBonAra, che rivoluziona il design delle sequenze di proteine accettando come input scheletri di proteine di destinazione accompagnati da qualsiasi tipo di molecole interagenti. Ecco il preprint:

Apprendimento automatico geometrico consapevole del contesto per il design della sequenza di proteine

Il design e l’ingegneria delle proteine ​​stanno evolvendo a un ritmo senza precedenti sfruttando i progressi del deep learning. Attuale…

www.biorxiv.org

CARBonAra si basa sul nostro Protein Structure Transformer (PeSTo), un’architettura di trasformazione geometrica che opera su nuvole di punti di atomi trattando le molecole in modo agnostico in termini di tipi di atomi e rappresentandole direttamente tramite i nomi degli elementi. Ho descritto PeSTo in maggior dettaglio in precedenza:

Nuovo preprint descrive un nuovo trasformatore geometrico privo di parametri delle coordinate atomiche per…

Ed è così veloce che può anche analizzare grandi insiemi di strutture proteiche per cercare amminoacidi propensi all’interazione…

towardsdatascience.com

Essendo basato sul modello PeSTo, il nucleo di CARBonAra consente di incorporare qualsiasi tipo di molecole non proteiche, tra cui acidi nucleici, lipidi, ioni, piccoli ligandi, cofattori o altre proteine, nel processo di progettazione di una nuova proteina. Pertanto, data una struttura proteica di input con uno o più ligandi a distanza di interazione, CARBonAra predice le confidenze degli amminoacidi residue-wise dai cui massimi si possono ricostruire le sequenze proteiche. A tal fine, CARBonAra prende impalcature di scheletri di base accompagnati da molecole non proteiche come input e genera uno spazio di sequenze potenziali che possono essere ulteriormente vincolate da specifici requisiti funzionali o strutturali, ad esempio fissando determinati amminoacidi, se sono noti essenziali per una determinata funzione. CARBonAra offre un livello senza precedenti di flessibilità e profondità nella progettazione di proteine, considerando il contesto molecolare circostante la proteina di interesse, il che significa che può creare regioni specializzate per la legatura di ioni, substrati, acidi nucleici, lipidi, altre proteine, ecc.

Nelle nostre valutazioni, CARBonAra si comporta allo stesso livello di metodi all’avanguardia come ProteinMPNN e ESM-IF1, pur dimostrando una similarità computazionale -tutti essendo abbastanza veloci. Il modello raggiunge tassi di recupero della sequenza abbastanza simili a quelli di ProteinMPNN ed ESM-IF1 per la progettazione di monomeri proteici e complessi proteici, ma inoltre può gestire progettazioni di proteine che comportano molecole non proteiche, che nessuno degli altri metodi può gestire.

Una delle caratteristiche notevoli di CARBonAra è la sua capacità di adattare le sequenze per soddisfare obiettivi specifici incorporando vari vincoli. Ad esempio, può ottimizzare l’identità della sequenza, minimizzare la similarità o ottenere una bassa similarità della sequenza. Inoltre, utilizzando CARBonAra con traiettorie strutturali da simulazioni di dinamica molecolare, abbiamo osservato che possiamo migliorare i tassi di recupero della sequenza, soprattutto nei casi in cui i metodi precedenti hanno mostrato tassi di successo inferiori.

Per saperne di più sul metodo, in particolare sui dettagli dell’architettura ML, consultare il nostro preprint in bioRxiv:

Apprendimento profondo geometrico consapevole del contesto per la progettazione di sequenze proteiche

La progettazione e l’ingegneria delle proteine stanno evolvendo ad un ritmo senza precedenti sfruttando i progressi dell’apprendimento profondo. Attuale…

www.biorxiv.org

Oltre un anno di AlphaFold 2 libero da usare e della rivoluzione che ha innescato in biologia

Modellizzazione sicura delle strutture proteiche, previsione delle loro interazioni con altre biomolecole e persino proteine…

Nisoo.com

Un’app web per progettare proteine stabili tramite il metodo del consenso, creata con JavaScript, ESMFold…

Miscelando tecnologie e strumenti moderni per un lavoro efficiente per creare un’app che implementa il metodo più semplice ma oggi più…

javascript.plainenglish.io

“ML-Everything”? Bilanciare quantità e qualità nei metodi di apprendimento automatico per la scienza

La necessità di adeguate validazioni e di buoni dataset, obiettivi ed equilibrati, e che le previsioni siano utili in contesti realistici…

towardsdatascience.com

Come Enormi Modelli di Linguaggio Proteico Potrebbero Sconvolgere la Biologia Strutturale

Previsione di struttura con una precisione simile ad AlphaFold ma fino a 60 volte più veloce – e avendo sviluppato nuovi metodi di intelligenza artificiale…

towardsdatascience.com

www.lucianoabriata.com Scrivo e fotografio su tutto ciò che rientra nel mio vasto campo di interessi: natura, scienza, tecnologia, programmazione, ecc.

Dammi una mancia qui o diventa un membro di Nisoo per accedere a tutte le sue storie (ricevo una piccola commissione senza costi aggiuntivi per te). Iscriviti per ricevere le mie nuove storie via email. Contattami per piccoli lavori sulla mia pagina dei servizi qui. Puoi contattarmi qui .