I modelli di fondazione pre-addestrati sono il futuro dell’apprendimento automatico molecolare? Presentazione di set di dati senza precedenti e della libreria di apprendimento automatico Graphium

I modelli di fondazione pre-addestrati il futuro dell'apprendimento automatico molecolare? Introduzione del rivoluzionario dataset e della libreria di apprendimento automatico Graphium

I recenti risultati del machine learning nella scoperta di farmaci sono stati ampiamente attribuiti ai modelli di apprendimento profondo basati su grafi e geometrie. Queste tecniche si sono dimostrate efficaci nella modellazione delle interazioni atomiche, nell’apprendimento della rappresentazione molecolare, nelle situazioni 3D e 4D, nella predizione di attività e proprietà, nella creazione di campi di forza e nella produzione molecolare. Come altre tecniche di apprendimento profondo, hanno bisogno di molti dati di addestramento per fornire un’eccellente accuratezza di modellazione. Tuttavia, la maggior parte dei set di dati di addestramento nella letteratura presente sui trattamenti ha dimensioni ridotte. Sorprendentemente, gli sviluppi recenti nell’apprendimento auto-supervisionato, nei modelli fondamentali per la computer vision e l’elaborazione del linguaggio naturale e nella comprensione profonda hanno aumentato significativamente l’efficienza dei dati.

In realtà, è dimostrato che il bias induttivo appreso riduce il bisogno di dati per i compiti successivi, investendo inizialmente nell’addestramento di modelli enormi con molti dati, una spesa unica. Dopo questi risultati, altre ricerche hanno esaminato i vantaggi dell’addestramento preliminare di grandi reti neurali a grafo molecolare per la modellazione molecolare a bassi dati. A causa della mancanza di grandi dataset molecolari etichettati, queste indagini hanno potuto utilizzare solo approcci di auto-supervisione come l’apprendimento contrastivo, gli autoencoder o le attività di denoising. Solo una piccola parte del miglioramento ottenuto dai modelli auto-supervisionati in NLP e CV è stato finora prodotto dai tentativi di modellazione a bassi dati mediante fine-tuning da questi modelli.

Dato che il comportamento delle molecole e dei loro conformeri dipende dall’ambiente e viene principalmente controllato dalla fisica quantistica, ciò è parzialmente spiegato dalla sottospecificazione delle molecole e dei loro conformeri come grafi. Ad esempio, è ampiamente noto che molecole con strutture simili possono presentare livelli significativamente diversi di bioattività, un fenomeno noto come precipizio di attività, che limita la modellazione a grafo basata solo sui dati strutturali. Secondo il loro argomento, lo sviluppo di modelli di base efficienti per la modellazione molecolare richiede un addestramento supervisionato utilizzando informazioni derivate da descrizioni meccaniche quantistiche e dati dipendenti dall’ambiente biologico.

Ricercatori del Québec AI Institute, Valence Labs, Université de Montréal, McGill University, Graphcore, New Jersey Institute of Technology, RWTH Aachen University e HEC Montré apportano tre contributi alla ricerca molecolare. Iniziano presentando una nuova famiglia di dataset multitask che sono di ordini di grandezza più grandi dello stato dell’arte. In secondo luogo, discutono di Graphium, un pacchetto di apprendimento automatico basato su grafi che consente un efficace addestramento su enormi dataset. Terzo, vari modelli di base dimostrano i vantaggi dell’addestramento su più compiti. Forniscono tre dataset multi-label completi e rigorosamente mantenuti, attualmente i più grandi, con circa 100 milioni di molecole e oltre 3000 attività con definizioni sparse. Questi dataset combinano etichette che descrivono caratteristiche quantistiche e biologiche apprese tramite simulazione e test di laboratorio, e sono stati creati per l’addestramento supervisionato di modelli fondamentali. Le responsabilità coperte dalle etichette riguardano sia il livello del nodo che il livello del grafo.

La varietà delle etichette facilita l’acquisizione di competenze di trasferimento in modo efficace. Consente di costruire modelli fondamentali aumentando la generalizzabilità di tali modelli per varie attività di modellazione molecolare. Hanno attentamente selezionato e aggiunto nuove informazioni ai dati esistenti per creare questi ampi database. Di conseguenza, le descrizioni di ogni molecola nella loro collezione includono informazioni sulle sue caratteristiche meccaniche quantistiche e le sue funzioni biologiche. Le componenti energetiche, elettriche e geometriche delle caratteristiche QM vengono calcolate utilizzando varie tecniche all’avanguardia, comprese tecniche semi-empiriche come PM6 e l’approccio basato sulla teoria funzionale della densità, come B3LYP. Come mostrato nella Figura 1, i loro database sull’attività biologica includono firme molecolari derivanti dal profilo tossicologico, dal profilo dell’espressione genica e dai saggi di risposta alla dose.

Figura 1: Una panoramica visiva delle collezioni di dataset molecolari suggeriti. I “mix” sono progettati per essere anticipati contemporaneamente mentre si svolgono più attività. Comprendono attività a livello di grafo e di nodo, nonché aspetti quantistici, chimici e biologici, punti dati categorici e continui.

La modellazione simultanea degli effetti quantistici e biologici favorisce la capacità di caratterizzare le complesse caratteristiche dipendenti dall’ambiente delle molecole, che sarebbe impossibile ottenere da ciò che spesso sono piccoli set di dati sperimentali. La Library of Graphium ha creato un completo toolkit di machine learning a grafo chiamato Graphium per consentire una formazione efficace su questi enormi set di dati multitask. Questa innovativa libreria semplifica la creazione e la formazione di modelli di base a grafo molecolare includendo insiemi di caratteristiche e complesse interazioni tra caratteristiche. Graphium affronta le limitazioni dei framework precedenti principalmente destinati a campioni sequenziali con poca interazione tra le caratteristiche del nodo, dell’arco e del grafo considerando le caratteristiche e le rappresentazioni come componenti fondamentali e aggiungendo avanzati strati di GNN.

Inoltre, Graphium gestisce l’ingegnerizzazione cruciale e altrimenti complessa dell’addestramento di modelli su enormi insiemi di dati in modo semplice e altamente configurabile offrendo funzionalità come la combinazione dei set di dati, l’affrontare i dati mancanti e l’addestramento congiunto. Risultati di base Per le combinazioni di set di dati offerte, vengono addestrati vari modelli in scenari a singolo set di dati e a multi-set di dati. Questi forniscono basi affidabili che possono servire come punto di riferimento per gli utenti futuri di questi set di dati e offrono anche una certa comprensione dei vantaggi dell’addestramento utilizzando questa metodologia a multi-set di dati. I risultati per questi modelli dimostrano specificamente che l’addestramento delle attività a bassa risorsa può essere notevolmente migliorato dall’utilizzo in combinazione con set di dati più grandi.

In conclusione, questo lavoro offre i più grandi set di dati molecolari 2D. Questi set di dati sono stati creati appositamente per addestrare modelli di base in grado di comprendere accuratamente le caratteristiche quantistiche e la flessibilità biologica delle molecole e, di conseguenza, essere adattati a varie applicazioni future. Inoltre, è stata creata la libreria Graphium per semplificare la formazione di questi modelli e fornire risultati di base diversi che dimostrano la potenza dei set di dati e della libreria utilizzati.