Il sistema di AI può generare proteine ​​innovative che soddisfano obiettivi di progettazione strutturale.

The AI system can generate innovative proteins that meet structural design goals.

Queste proteine regolabili potrebbero essere utilizzate per creare nuovi materiali con proprietà meccaniche specifiche, come la resistenza o la flessibilità.

A new machine-learning system can generate protein designs with certain structural features, and which do not exist in nature. These proteins could be utilized to make materials that have similar mechanical properties to existing materials, like polymers, but which would have a much smaller carbon footprint.

Ricercatori del MIT stanno utilizzando l’intelligenza artificiale per progettare nuove proteine che superano quelle presenti in natura.

Hanno sviluppato algoritmi di apprendimento automatico in grado di generare proteine con specifiche caratteristiche strutturali, che potrebbero essere utilizzate per produrre materiali con determinate proprietà meccaniche, come rigidità o elasticità. Tali materiali biologicamente ispirati potrebbero eventualmente sostituire materiali prodotti dal petrolio o ceramici, ma con una impronta di carbonio molto più ridotta.

I ricercatori del MIT, del MIT-IBM Watson AI Lab e dell’Università di Tufts hanno impiegato un modello generativo, lo stesso tipo di architettura di modello di apprendimento automatico utilizzata nei sistemi AI come DALL-E 2. Ma invece di utilizzarlo per generare immagini realistiche da prompt di linguaggio naturale, come fa DALL-E 2, hanno adattato l’architettura del modello in modo che potesse prevedere le sequenze di aminoacidi delle proteine che raggiungono obiettivi strutturali specifici.

In un articolo pubblicato oggi su Chem, i ricercatori dimostrano come questi modelli possano generare proteine realistiche, ma nuove. I modelli, che apprendono le relazioni biochimiche che controllano la formazione delle proteine, possono produrre nuove proteine che potrebbero consentire applicazioni uniche, afferma l’autore senior Markus Buehler, il Jerry McAfee Professor in Engineering e professore di ingegneria civile e ambientale e di ingegneria meccanica.

Ad esempio, questo strumento potrebbe essere utilizzato per sviluppare rivestimenti alimentari ispirati alle proteine, che potrebbero mantenere freschi i prodotti per un periodo più lungo, mentre sono sicuri per gli esseri umani. E i modelli possono generare milioni di proteine in pochi giorni, dando rapidamente ai ricercatori un portfolio di nuove idee da esplorare, aggiunge.

“Quando si pensa alla progettazione di proteine che la natura non ha ancora scoperto, è uno spazio di progettazione così enorme che non si può risolvere solo con una matita e un pezzo di carta. Devi capire il linguaggio della vita, il modo in cui gli aminoacidi sono codificati dal DNA e poi si uniscono per formare strutture proteiche. Prima dell’apprendimento profondo non potevamo davvero farlo”, afferma Buehler, che è anche membro del MIT-IBM Watson AI Lab.

Bo Ni, postdoc nel Laboratory for Atomistic and Molecular Mechanics di Buehler, e David Kaplan, il Stern Family Professor of Engineering e professore di bioingegneria presso Tufts, si uniscono a Buehler nell’articolo.

Adattare nuovi strumenti per il compito

Le proteine sono formate da catene di aminoacidi, piegate insieme in modelli 3D. La sequenza di aminoacidi determina le proprietà meccaniche della proteina. Mentre gli scienziati hanno identificato migliaia di proteine create attraverso l’evoluzione, stimano che un enorme numero di sequenze di aminoacidi rimangano ancora da scoprire.

Per semplificare la scoperta delle proteine, i ricercatori hanno recentemente sviluppato modelli di apprendimento profondo che possono prevedere la struttura 3D di una proteina per un insieme di sequenze di aminoacidi. Ma il problema inverso, ovvero prevedere una sequenza di strutture di aminoacidi che soddisfino obiettivi di progettazione, si è rivelato ancora più difficile.

Un nuovo avvento nell’apprendimento automatico ha permesso a Buehler e ai suoi colleghi di affrontare questa spinosa sfida: modelli di diffusione basati sull’attenzione.

I modelli basati sull’attenzione possono apprendere relazioni a lungo raggio, il che è fondamentale per lo sviluppo di proteine poiché una mutazione in una lunga sequenza di aminoacidi può fare la differenza nell’intero design, afferma Buehler. Un modello di diffusione impara a generare nuovi dati attraverso un processo che implica l’aggiunta di rumore ai dati di formazione, per poi imparare a recuperare i dati rimuovendo il rumore. Sono spesso più efficaci di altri modelli nel generare dati di alta qualità e realistici che possono essere condizionati per soddisfare un insieme di obiettivi di progettazione.

I ricercatori hanno utilizzato questa architettura per costruire due modelli di apprendimento automatico in grado di prevedere una varietà di nuove sequenze di aminoacidi che formano proteine che soddisfano obiettivi di progettazione strutturale.

“Nell’industria biomedica, potresti non volere una proteina completamente sconosciuta perché non conosci le sue proprietà. Ma in alcune applicazioni, potresti volere una nuova proteina simile a quella trovata in natura, ma che faccia qualcosa di diverso. Possiamo generare uno spettro con questi modelli, che controlliamo sintonizzando certe manopole”, afferma Buehler.

Le comuni forme di piegatura degli aminoacidi, chiamate strutture secondarie, producono diverse proprietà meccaniche. Ad esempio, le proteine con strutture ad elica alfa producono materiali elastici, mentre quelle con strutture a foglio beta producono materiali rigidi. Combinando eliche alfa e fogli beta si possono creare materiali che sono elastici e resistenti, come le sete.

I ricercatori hanno sviluppato due modelli, uno che opera sulle proprietà strutturali generali della proteina e uno che opera a livello di aminoacidi. Entrambi i modelli funzionano combinando queste strutture di aminoacidi per generare proteine. Per il modello che opera sulle proprietà strutturali generali, l’utente inserisce una percentuale desiderata di diverse strutture (ad esempio, il 40% di elica alfa e il 60% di foglio beta). Poi il modello genera sequenze che soddisfano quegli obiettivi. Per il secondo modello, lo scienziato specifica anche l’ordine delle strutture degli aminoacidi, il che dà un controllo molto più dettagliato.

I modelli sono collegati ad un algoritmo che prevede la piegatura delle proteine, che i ricercatori utilizzano per determinare la struttura tridimensionale della proteina. Poi calcolano le proprietà risultanti e le confrontano con le specifiche di progettazione.

Design realistici ma innovativi

Hanno testato i loro modelli confrontando le nuove proteine con proteine note che hanno proprietà strutturali simili. Molte avevano un certo sovrapporsi con sequenze di amminoacidi esistenti, circa il 50-60% dei casi, ma anche alcune sequenze completamente nuove. Il livello di somiglianza suggerisce che molte delle proteine generate sono sintetizzabili, aggiunge Buehler.

Per garantire che le proteine previste siano ragionevoli, i ricercatori hanno cercato di ingannare i modelli inserendo obiettivi di progettazione fisicamente impossibili. Sono rimasti impressionati nel vedere che, invece di produrre proteine improbabili, i modelli hanno generato la soluzione sintetizzabile più vicina.

“L’algoritmo di apprendimento può rilevare le relazioni nascoste nella natura. Questo ci dà la fiducia di dire che qualunque cosa esca dal nostro modello è molto probabile che sia realistica”, dice Ni.

Successivamente, i ricercatori pianificano di convalidare sperimentalmente alcuni dei nuovi design di proteine creandoli in laboratorio. Vogliono anche continuare ad aumentare e migliorare i modelli in modo da poter sviluppare sequenze di amminoacidi che soddisfino più criteri, come le funzioni biologiche.

“Per le applicazioni che ci interessano, come la sostenibilità, la medicina, il cibo, la salute e la progettazione di materiali, dovremo andare oltre ciò che la natura ha fatto. Qui c’è un nuovo strumento di progettazione che possiamo usare per creare soluzioni potenziali che potrebbero aiutarci a risolvere alcuni dei problemi sociali davvero urgenti che stiamo affrontando”, afferma Buehler.

“Oltre al loro ruolo naturale nelle cellule viventi, le proteine stanno giocando sempre più un ruolo chiave nelle applicazioni tecnologiche che vanno dai farmaci biologici ai materiali funzionali. In questo contesto, una sfida chiave è progettare sequenze proteiche con proprietà desiderate adatte ad applicazioni specifiche. Approcci generativi di apprendimento automatico, tra cui quelli che sfruttano modelli di diffusione, sono recentemente emersi come strumenti potenti in questo spazio”, afferma Tuomas Knowles, professore di chimica fisica e biofisica presso l’Università di Cambridge, che non ha fatto parte di questa ricerca. “Buehler e colleghi dimostrano un importante avanzamento in questo settore fornendo un approccio di progettazione che consente di adattare la struttura secondaria della proteina progettata. Questo è un avanzamento entusiasmante con implicazioni per molte aree potenziali, incluso la progettazione di blocchi di costruzione per materiali funzionali, le cui proprietà sono governate dagli elementi della struttura secondaria”.

“Questo lavoro in particolare è affascinante perché sta esaminando la creazione di nuove proteine che per lo più non esistono, ma poi esamina quali sarebbero le loro caratteristiche da una direzione basata sulla meccanica”, aggiunge Philip LeDuc, professore di ingegneria meccanica presso l’Università di Carnegie Mellon, che non ha fatto parte di questo lavoro. “Personalmente, sono stato affascinato dall’idea di creare molecole che non esistono e che hanno funzionalità che non abbiamo ancora immaginato. Questo è un grande passo in quella direzione”.

Questa ricerca è stata supportata, in parte, dal MIT-IBM Watson AI Lab, dal Dipartimento dell’agricoltura degli Stati Uniti, dal Dipartimento dell’energia degli Stati Uniti, dall’Ufficio di ricerca dell’esercito, dai National Institutes of Health e dall’Ufficio di ricerca navale.