Questo articolo dell’AI del MIT esplora la scalabilità dei modelli di deep learning per la ricerca in chimica.

In questo articolo, l'AI del MIT esplora la scalabilità dei modelli di deep learning nella ricerca chimica.

Ricercatori del MIT hanno indagato il comportamento di scalabilità dei modelli linguistici chimici di grandi dimensioni, concentrandosi sia sui generativi pre-trained transformers (GPT) per la chimica (ChemGPT) che sui graph neural network force fields (GNN). Introducono il concetto di neural scaling, in cui le prestazioni dei modelli sono caratterizzate da leggi scalari empiriche, in particolare in termini di scalabilità della perdita come legge di potenza in relazione al numero di parametri del modello, dimensione del dataset o risorse di calcolo. Lo studio approfondisce le sfide e le opportunità legate alla scalabilità dei modelli chimici di grandi dimensioni, al fine di fornire spunti sull’allocazione ottimale di risorse per migliorare la perdita in fase di pre-training.

Per la modellazione linguistica chimica, i ricercatori progettano ChemGPT, un modello in stile GPT-3 basato su GPT-Neo, con un tokenizer per le rappresentazioni SELFIES (self-referencing embedded strings) delle molecole. Il modello viene pre-addestrato su molecole provenienti da PubChem e lo studio esplora l’impatto delle dimensioni del dataset e del modello sulla perdita in fase di pre-training.

Oltre ai modelli linguistici, il paper si occupa dei graph neural network force fields (GNN) per compiti che richiedono geometria molecolare e struttura tridimensionale. Vengono considerati quattro tipi di GNN, che vanno da modelli con livelli interni che manipolano solo quantità invarianti E(3) a quelli che utilizzano quantità equivarianti E(3) con architetture di modelli di base sempre più informate sulla fisica. Gli autori valutano la capacità di questi GNN, definita in termini di profondità e larghezza, durante gli esperimenti di neural scaling.

Per gestire in modo efficiente l’ottimizzazione degli iperparametri (HPO) per i modelli chimici profondi, il paper introduce una tecnica chiamata Training Performance Estimation (TPE), adattandola da un metodo utilizzato nelle architetture di visione artificiale. TPE utilizza la velocità di allenamento per consentire una stima delle prestazioni in diversi domini e dimensioni di modelli/dataset. Il paper dettaglia le impostazioni sperimentali, incluse l’uso di GPU NVIDIA Volta V100, PyTorch e l’accelerazione distribuita dei dati in parallelo per l’implementazione e l’allenamento del modello.

Nel complesso, lo studio fornisce una completa esplorazione della neural scaling nel contesto dei modelli linguistici chimici di grandi dimensioni, considerando sia i generativi pre-trained transformers che i graph neural network force fields, e introduce un metodo efficiente per l’ottimizzazione degli iperparametri. I risultati sperimentali e le intuizioni contribuiscono a comprendere l’efficienza delle risorse di diverse architetture di modelli nelle applicazioni scientifiche di deep learning.