Prevedere la retrosintesi in un solo passaggio incorporando le intuizioni dei chimici con i modelli di intelligenza artificiale

Previsione della retrosintesi con intuizioni chimiche e modelli di intelligenza artificiale

Nella sintesi organica, le molecole vengono costruite attraverso processi organici, rendendola un’importante branca della chimica sintetica. Uno dei lavori più importanti nella sintesi organica assistita dal computer è l’analisi della retrosintesi1, che propone i probabili precursori di reazione dati i risultati desiderati. Trovare le migliori possibili rotte di reazione da un grande insieme di possibilità richiede previsioni accurate dei reagenti. I ricercatori di Microsoft si riferiscono ai substrati che forniscono atomi per una molecola prodotto come “reagenti” nel contesto di questo articolo. Non sono stati considerati reagenti nel documento solventi o catalizzatori che facilitano una reazione ma non contribuiscono loro stessi ad alcun atomo al prodotto finale. Di recente, i metodi basati sull’apprendimento automatico hanno mostrato un notevole potenziale nel affrontare questo problema. La generazione autoregressiva token per token della sequenza di output è una caratteristica comune di molti di questi approcci, e molti di essi utilizzano strutture encoder-decoder in cui il componente encoder codifica la sequenza molecolare o il grafo come vettori ad alta dimensionalità e il componente decoder decodifica l’output dell’encoder.

Il processo di analisi della retrosintesi è stato concepito come una traduzione da una lingua all’altra, in questo caso, dal risultato ai reagenti. Utilizzando una probabilità del tipo bayesiano, è stato utilizzato un Molecular Transformer per prevedere le rotte di retrosintesi utilizzando metodologie esplorative. L’uso di reti neurali profonde ben sviluppate nell’elaborazione del linguaggio naturale è reso possibile ricoprendo l’analisi della retrosintesi come un problema di traduzione automatica.

La generazione autoregressiva token per token viene utilizzata per costruire stringhe di output SMILES nella fase di decodifica; in modi convenzionali, i token elementari nelle stringhe SMILES si riferiscono tipicamente a singoli atomi o molecole. Questo non è immediatamente intuitivo o spiegabile per i chimici impegnati nella progettazione della sintesi o nell’analisi della retrosintesi. Di fronte a una sfida reale di scouting delle rotte, la maggior parte dei chimici sintetici si basa sui loro anni di formazione ed esperienza per sviluppare un percorso di reazione combinando la loro conoscenza dei percorsi di reazione esistenti con una comprensione astratta della meccanica sottostante derivata dai principi di base. Gli esseri umani comunemente eseguono l’analisi della retrosintesi, che inizia con frammenti molecolari o sottostrutture chimicamente simili o mantenute nelle molecole target. Questi frammenti o sottostrutture sono pezzi di un puzzle che, se assemblati correttamente, potrebbero portare al prodotto finale attraverso una serie di processi chimici.

I ricercatori suggeriscono di utilizzare sottostrutture tipicamente mantenute nella sintesi organica senza ricorrere a sistemi esperti o librerie di template. Queste sottostrutture vengono recuperate da vasti insiemi di reazioni conosciute e catturano piccole comunanze tra reagenti e prodotti. In questo senso, possono inquadrare l’analisi della retrosintesi come un problema di apprendimento sequenziale alla livello delle sottostrutture.

Modellazione delle sottostrutture estratte

I frammenti molecolari o le piccole parti costituenti chimicamente confrontabili o presenti all’interno delle molecole target sono chiamati “sottostrutture” in chimica organica. Queste sottostrutture sono cruciali per l’analisi della retrosintesi perché aiutano a comprendere come vengono assemblate molecole complesse.

Utilizzando questa idea come ispirazione, il framework ha tre parti principali:

Se viene fornita una molecola prodotto, questo modulo troverà altre reazioni che producono un prodotto simile. Utilizza un recuperatore di memoria cross-linguistico che può essere addestrato per organizzare correttamente reagenti e prodotti in uno spazio vettoriale ad alta dimensionalità.

I ricercatori utilizzano l’impronta molecolare per isolare le sottostrutture condivise tra la molecola prodotto e le migliori possibilità allineate incrociate. Queste sottostrutture forniscono la mappatura frammento-frammento tra reagenti e prodotti a livello di reazione.

Accoppiamento tra sequenze a livello di sottostruttura Nel processo di apprendimento, i ricercatori prendono la serie iniziale di token e la trasformano in una sequenza di sottostrutture. Le stringhe SMILES delle sottostrutture sono le prime nella nuova sequenza di input, seguite dalle stringhe SMILES di frammenti aggiuntivi etichettati con numeri virtuali. I pezzi virtualmente numerati sono le sequenze di output. I siti di formazione di legami e collegamento sono indicati dai loro numeri virtuali corrispondenti.

Rispetto ad altri metodi che sono stati provati e valutati, l’approccio ha la stessa o una maggiore accuratezza di primo posto praticamente ovunque. Le prestazioni del modello sono significativamente migliorate sul sottoinsieme di dati da cui sono state recuperate con successo le sottostrutture.

L’82% dei prodotti nel dataset di test USPTO è stato estratto con successo utilizzando il metodo, dimostrandone la generalizzabilità.

Per ridurre la lunghezza delle rappresentazioni stringa delle molecole e il numero di atomi che dovevano essere previsti, era sufficiente produrre pezzi correlati alle particelle virtualmente contrassegnate nelle sottostrutture.

In conclusione, i ricercatori di Microsoft hanno ideato un modo per derivare sottostrutture universalmente conservate da utilizzare nelle previsioni della retrosintesi. Senza alcun aiuto da parte degli esseri umani, possono estrarre le strutture sottostanti. Il metodo nel suo complesso è molto simile al modo in cui gli scienziati umani conducono l’analisi della retrosintesi. Rispetto ai modelli precedentemente pubblicati, l’implementazione attuale rappresenta un miglioramento. Mostrano anche che il miglioramento della procedura di estrazione delle sottostrutture sottostanti può aiutare il modello a performare meglio nella previsione della retrosintesi. L’obiettivo è suscitare la curiosità dei lettori sulle entusiasmanti e multidisciplinari previsioni della retrosintesi e sulla ricerca associata.