Nuovo modello offre un modo per accelerare la scoperta di nuovi farmaci.

A new model accelerates drug discovery.

Applicando un modello linguistico alle interazioni proteina-farmaco, i ricercatori possono rapidamente esaminare grandi librerie di potenziali composti farmaceutici.

Researchers can screen more than 100 million compounds in a single day — much more than any existing model.

Enormi librerie di composti farmaceutici possono contenere trattamenti potenziali per una varietà di malattie, come il cancro o le malattie cardiache. Idealmente, gli scienziati vorrebbero testare sperimentalmente ciascuno di questi composti contro tutti i possibili bersagli, ma fare quel tipo di screening richiede troppo tempo.

Negli ultimi anni, i ricercatori hanno iniziato a utilizzare metodi computazionali per esaminare quelle librerie nella speranza di accelerare la scoperta di nuovi farmaci. Tuttavia, molti di quei metodi richiedono molto tempo, in quanto la maggior parte di essi calcola la struttura tridimensionale di ogni proteina bersaglio dalla sua sequenza di aminoacidi, per poi utilizzare quelle strutture per prevedere con quali molecole di farmaco interagirà.

Adesso i ricercatori del MIT e dell’Università di Tufts hanno ideato un approccio computazionale alternativo basato su un tipo di algoritmo di intelligenza artificiale noto come un grande modello di lingua. Questi modelli – un esempio ben noto è ChatGPT – possono analizzare enormi quantità di testo e capire quali parole (o, in questo caso, aminoacidi) sono più propense a comparire insieme. Il nuovo modello, noto come ConPLex, può abbinare le proteine bersaglio con le molecole di farmaco potenziali senza dover eseguire la fase computazionalmente intensiva di calcolare le strutture delle molecole.

Utilizzando questo metodo, i ricercatori possono esaminare più di 100 milioni di composti in un solo giorno, molto più di qualsiasi modello esistente.

“Questo lavoro affronta la necessità di uno screening in silico efficiente e accurato di potenziali candidati farmacologici, e la scalabilità del modello consente di effettuare screening su larga scala per valutare gli effetti off-target, la riprogettazione di farmaci e determinare l’impatto delle mutazioni sul legame dei farmaci”, afferma Bonnie Berger, professore di matematica, capo del gruppo di calcolo e biologia presso il Laboratorio di Scienze Informatiche e Intelligenza Artificiale (CSAIL) del MIT e uno dei principali autori del nuovo studio.

Lenore Cowen, professore di scienze informatiche presso l’Università di Tufts, è anche uno degli autori principali dell’articolo, che appare questa settimana nelle Proceedings of the National Academy of Sciences. Rohit Singh, un ricercatore del CSAIL, e Samuel Sledzieski, uno studente universitario del MIT, sono gli autori principali dell’articolo, mentre Bryan Bryson, professore associato di ingegneria biologica presso il MIT e membro dell’Istituto Ragon di MGH, MIT e Harvard, è anche un autore. Oltre all’articolo, i ricercatori hanno reso disponibile il loro modello online per altri scienziati che vogliono utilizzarlo.

Effettuare previsioni

Negli ultimi anni, gli scienziati computazionali hanno compiuto grandi progressi nello sviluppo di modelli che possono prevedere le strutture delle proteine ​​in base alle loro sequenze di aminoacidi. Tuttavia, utilizzare questi modelli per prevedere come una vasta libreria di farmaci potenziali potrebbe interagire con una proteina cancerogena, ad esempio, si è rivelato difficile, principalmente perché il calcolo delle strutture tridimensionali delle proteine richiede molto tempo e potenza di calcolo.

Un ulteriore ostacolo è che questi tipi di modelli non hanno un buon track record nell’eliminare i composti noti come decoy, che sono molto simili a un farmaco di successo ma in realtà non interagiscono bene con il bersaglio.

“Una delle sfide di lunga data nel campo è stata che questi metodi sono fragili, nel senso che se fornissi al modello un farmaco o una piccola molecola che sembrava quasi quella giusta, ma era leggermente diversa in qualche modo sottile, il modello potrebbe ancora prevedere che interagiranno, anche se non dovrebbe”, afferma Singh.

I ricercatori hanno progettato modelli che possono superare questo tipo di fragilità, ma di solito sono adattati solo a una classe di molecole di farmaci e non sono adatti a screening su larga scala perché i calcoli richiedono troppo tempo.

Il team del MIT ha deciso di adottare un approccio alternativo, basato su un modello di proteina che hanno sviluppato per la prima volta nel 2019. Lavorando con un database di oltre 20.000 proteine, il modello di linguaggio codifica queste informazioni in rappresentazioni numeriche significative di ciascuna sequenza di aminoacidi che catturano le associazioni tra sequenza e struttura.

“Con questi modelli di linguaggio, anche le proteine che hanno sequenze molto diverse ma potenzialmente hanno strutture o funzioni simili, possono essere rappresentate in modo simile in questo spazio di lingua, e siamo in grado di sfruttarlo per le nostre previsioni”, dice Sledzieski.

Nel loro nuovo studio, i ricercatori hanno applicato il modello di proteina al compito di capire quali sequenze di proteine interagiranno con molecole di farmaco specifiche, entrambe hanno rappresentazioni numeriche che vengono trasformate in uno spazio comune condiviso da una rete neurale. Hanno addestrato la rete neurale su interazioni proteina-farmaco conosciute, il che gli ha permesso di imparare ad associare specifiche caratteristiche delle proteine con la capacità di legare il farmaco, senza dover calcolare la struttura 3D di nessuna delle molecole.

“Con questa rappresentazione numerica di alta qualità, il modello può bypassare completamente la rappresentazione atomica e, da questi numeri, prevedere se questo farmaco si lega o meno”, dice Singh. “Il vantaggio di questo è che si evita la necessità di passare attraverso una rappresentazione atomica, ma i numeri hanno ancora tutte le informazioni di cui hai bisogno”.

Un altro vantaggio di questo approccio è che tiene conto della flessibilità delle strutture proteiche, che possono essere “mosse” e assumere forme leggermente diverse durante l’interazione con una molecola di farmaco.

Alta affinità

Per rendere il loro modello meno suscettibile ad essere ingannato da molecole di farmaco fuorvianti, i ricercatori hanno anche incorporato una fase di formazione basata sul concetto di apprendimento contrastivo. In questo approccio, i ricercatori danno al modello esempi di farmaci “reali” e imitazioni e gli insegnano a distinguere tra di loro.

I ricercatori hanno quindi testato il loro modello eseguendo uno screening di una libreria di circa 4.700 molecole di farmaci candidate per la loro capacità di legarsi a un insieme di 51 enzimi noti come chinasi proteiche.

Dai risultati migliori, i ricercatori hanno scelto 19 coppie farmaco-proteina da testare sperimentalmente. Gli esperimenti hanno rivelato che su 19 risultati, 12 avevano una forte affinità di legame (nell’ordine dei nanomoli), mentre quasi tutte le altre possibili coppie farmaco-proteina non avrebbero avuto affinità. Quattro di queste coppie si sono legate con un’affinità estremamente alta, sub-nanomolare (così forte che una piccola concentrazione di farmaco, dell’ordine di parti per miliardo, inibirà la proteina).

Mentre i ricercatori si sono concentrati principalmente sullo screening di piccoli farmaci molecolari in questo studio, stanno ora lavorando per applicare questo approccio ad altri tipi di farmaci, come gli anticorpi terapeutici. Questo tipo di modellizzazione potrebbe anche rivelarsi utile per eseguire test di tossicità di composti farmaceutici potenziali, per assicurarsi che non abbiano effetti collaterali indesiderati prima di testarli su modelli animali.

“Parte del motivo per cui la scoperta dei farmaci è così costosa è perché ha tassi di fallimento elevati. Se possiamo ridurre questi tassi di fallimento dicendo in anticipo che questo farmaco non è probabile che funzioni, ciò potrebbe contribuire notevolmente a ridurre il costo della scoperta dei farmaci”, afferma Singh.

Questo nuovo approccio “rappresenta una significativa svolta nella previsione dell’interazione farmaco-target e apre ulteriori opportunità per future ricerche per migliorarne ulteriormente le capacità”, afferma Eytan Ruppin, capo del Laboratorio di Scienza dei Dati sul Cancro presso l’Istituto Nazionale per il Cancro, che non ha partecipato allo studio. “Ad esempio, l’incorporazione di informazioni strutturali nello spazio latente o l’esplorazione di metodi di generazione molecolare per la generazione di imitazioni potrebbero migliorare ulteriormente le previsioni”.

La ricerca è stata finanziata dai National Institutes of Health, dalla National Science Foundation e dalla Phillip and Susan Ragon Foundation.