Incontra CLAMP un nuovo strumento AI per la previsione dell’attività molecolare che può adattarsi a nuovi esperimenti durante il tempo di inferenza

Meet CLAMP, a new AI tool for molecular activity prediction that can adapt to new experiments during inference time.

Da decenni, le attività che coinvolgono la previsione delle proprietà chimiche, macroscopiche o biologiche di una molecola basandosi sulla sua struttura chimica sono state un problema chiave nella ricerca scientifica. Molti algoritmi di apprendimento automatico sono stati utilizzati per scoprire correlazioni tra la struttura chimica e le caratteristiche di tali molecole grazie ai significativi progressi tecnologici degli ultimi anni. Inoltre, l’avvento del deep learning ha segnato l’introduzione dei modelli di previsione dell’attività, che vengono utilizzati per classificare le molecole rimanenti per i test biologici dopo la rimozione delle molecole con caratteristiche indesiderate. Questi modelli di previsione dell’attività basati sul deep learning sono i principali strumenti dell’industria della scoperta dei farmaci computazionale e possono essere paragonati a grandi modelli di linguaggio nell’elaborazione del linguaggio naturale e a modelli di classificazione delle immagini nella visione artificiale. Questi modelli di previsione dell’attività basati sul deep learning utilizzano una varietà di descrizioni della struttura chimica a basso livello, tra cui impronte chimiche, descrittori, grafici molecolari, la rappresentazione SMILES in forma di stringa o una combinazione di queste.

Nonostante queste architetture abbiano ottenuto risultati ammirevoli, i loro progressi non sono stati così rivoluzionari come quelli nella visione e nel linguaggio. Di solito, coppie di molecole e etichette di attività provenienti da esperimenti biologici, o “bioassays”, vengono utilizzate per addestrare i modelli di previsione dell’attività. Poiché il processo di annotazione dei dati di addestramento (noti anche come bioattività) è estremamente dispendioso in termini di tempo e lavoro, i ricercatori sono alla ricerca di metodi che permettano di addestrare efficacemente i modelli di previsione dell’attività su un minor numero di punti dati. Inoltre, gli algoritmi di previsione dell’attività attuali non sono ancora in grado di utilizzare informazioni esaustive sulle attività previsionali, che sono principalmente fornite sotto forma di descrizioni testuali degli esperimenti biologici. Ciò è principalmente dovuto al fatto che questi modelli hanno bisogno di dati di misurazione provenienti dai bioassays o dalle attività di previsione su cui vengono addestrati o sintonizzati. A causa di ciò, i modelli di previsione dell’attività attuali non possono effettuare previsioni di attività a distanza zero e presentano una scarsa accuratezza predittiva per scenari a pochi dati.

A causa delle sue capacità riportate di previsione a distanza zero e a pochi dati, i ricercatori si sono rivolti a vari modelli scientifici di linguaggio per compiti con pochi dati. Ma questi modelli mancano significativamente di qualità predittiva quando si tratta di previsione dell’attività. Lavorando su questa affermazione del problema, un gruppo di eminenti ricercatori del Dipartimento di Apprendimento Automatico presso l’Università Johannes Kepler di Linz, Austria, ha scoperto che l’utilizzo di database chimici come dati di addestramento o pre-addestramento e la selezione di un codificatore di molecole efficiente può portare a una migliore previsione dell’attività. Per affrontare questo problema, propongono Contrastive Language-Assay-Molecule Pre-training (o CLAMP), un’architettura innovativa per la previsione dell’attività che può essere condizionata dalla descrizione testuale del compito di previsione. Questa architettura modularizzata è composta da un codificatore separato per le molecole e il linguaggio che sono pre-addestrati in modo contrastivo tra queste due modalità di dati. I ricercatori propongono anche un obiettivo di pre-addestramento contrastivo sulle informazioni contenute nei database chimici come dati di addestramento. Questi dati contengono ordini di grandezza più strutture chimiche rispetto a quelle contenute nei testi biomedici.

Come indicato in precedenza, CLAMP utilizza un codificatore di testo addestrabile per creare embedding dei bioassay e un codificatore di molecole addestrabile per creare embedding delle molecole. Si suppone che questi embedding siano normalizzati a livello di layer. Il metodo proposto dai ricercatori austriaci include anche una funzione di punteggio che fornisce valori alti quando una molecola è attiva su un determinato bioassay e valori bassi quando non lo è. Inoltre, la strategia di apprendimento contrastivo fornisce al modello la capacità di apprendimento di trasferimento a distanza zero, che, semplicemente, produce previsioni interessanti per bioassay non visti in precedenza. Secondo diverse valutazioni sperimentali condotte dai ricercatori, è emerso che la loro metodologia migliora significativamente le prestazioni predittive su benchmark di apprendimento a pochi dati e problemi a distanza zero nella scoperta di farmaci e produce rappresentazioni trasferibili. I ricercatori ritengono che l’architettura modulare e l’obiettivo di pre-addestramento del loro modello siano stati il motivo principale delle sue prestazioni notevoli.

È importante ricordare che, sebbene CLAMP abbia prestazioni ammirevoli, c’è ancora spazio per miglioramenti. Molti elementi che influenzano i risultati del bioassay, come il dosaggio chimico, non vengono presi in considerazione. Inoltre, potrebbero esserci casi di previsioni errate causate da incongruenze grammaticali e negazioni. Tuttavia, il metodo di apprendimento contrastivo CLAMP presenta le migliori prestazioni nelle attività di previsione a distanza zero nella scoperta di farmaci su diversi grandi dataset.