FermiNet Fisica Quantistica e Chimica dalle Prime Principî

'FermiNet Quantum Physics and Chemistry from First Principles'

In un articolo pubblicato di recente su Physical Review Research, mostriamo come l’apprendimento profondo possa aiutare a risolvere le equazioni fondamentali della meccanica quantistica per sistemi reali. Non solo si tratta di una importante questione scientifica fondamentale, ma potrebbe anche portare a utilizzi pratici in futuro, consentendo ai ricercatori di prototipare nuovi materiali e sintesi chimiche in silico prima di provarli in laboratorio. Oggi rilasciamo anche il codice di questo studio in modo che la comunità di fisica computazionale e chimica possa basarsi sul nostro lavoro e applicarlo a una vasta gamma di problemi. Abbiamo sviluppato una nuova architettura di rete neurale, la Fermionic Neural Network o FermiNet, che si adatta bene alla modellazione dello stato quantistico di grandi insiemi di elettroni, i blocchi fondamentali dei legami chimici. Il FermiNet è stata la prima dimostrazione di apprendimento profondo per il calcolo dell’energia di atomi e molecole dai primi principi che fosse abbastanza accurata da essere utile, ed è ancora il metodo di rete neurale più accurato ad oggi. Speriamo che gli strumenti e le idee sviluppate nella nostra ricerca sull’IA a DeepMind possano contribuire a risolvere problemi fondamentali nelle scienze naturali, e il FermiNet si unisce al nostro lavoro sulla piegatura delle proteine, la dinamica vetrosa, la cromodinamica quantistica su reticolo e molti altri progetti nel rendere viva quella visione.

Una breve storia della meccanica quantistica

Menziona “meccanica quantistica” e è più probabile che susciti confusione che altro. La frase evoca immagini del gatto di Schrödinger, che paradossalmente può essere sia vivo che morto, e delle particelle fondamentali che sono anche, in qualche modo, onde. Nei sistemi quantistici, una particella come un elettrone non ha una posizione esatta, come avrebbe in una descrizione classica. Invece, la sua posizione è descritta da una nuvola di probabilità: è diffusa in tutti i luoghi in cui è consentita. Questo stato di cose controintuitivo ha portato Richard Feynman a dichiarare: “Se pensi di capire la meccanica quantistica, non capisci la meccanica quantistica”. Nonostante questa stranezza spettrale, l’essenza della teoria può essere ridotta a poche equazioni semplici. La più famosa di queste, l’equazione di Schrödinger, descrive il comportamento delle particelle a livello quantistico allo stesso modo in cui le leggi di Newton descrivono il comportamento degli oggetti a una scala umana più familiare. Sebbene l’interpretazione di questa equazione possa causare un’innumerevole confusione, la matematica è molto più facile da gestire, portando alla comune esortazione dei professori di “stare zitti e calcolare” quando si affrontano difficili domande filosofiche da parte degli studenti.

Queste equazioni sono sufficienti per descrivere il comportamento di tutta la materia familiare che vediamo intorno a noi a livello di atomi e nuclei. La loro natura controintuitiva porta a tutti i tipi di fenomeni esotici: i superconduttori, i superfluidi, i laser e i semiconduttori sono possibili solo grazie agli effetti quantistici. Ma persino il modesto legame covalente, il blocco di base della chimica, è una conseguenza delle interazioni quantistiche degli elettroni. Una volta che queste regole sono state stabilite negli anni ’20, gli scienziati si resero conto che, per la prima volta, avevano una teoria dettagliata di come funziona la chimica. In teoria, potevano semplicemente impostare queste equazioni per diverse molecole, risolvere l’energia del sistema e capire quali molecole fossero stabili e quali reazioni avvenissero spontaneamente. Ma quando si sono seduti per calcolare effettivamente le soluzioni di queste equazioni, hanno scoperto che potevano farlo esattamente per l’atomo più semplice (l’idrogeno) e praticamente per nient’altro. Tutto il resto era troppo complicato.

L’ottimismo speranzoso di quei giorni era ben riassunto da Paul Dirac:

Le leggi fisiche sottostanti necessarie per la teoria matematica di una gran parte della fisica e di tutta la chimica sono quindi completamente note, e la difficoltà consiste solo nel fatto che l’applicazione esatta di queste leggi porta a equazioni troppo complesse per essere risolte. Diventa quindi desiderabile che siano sviluppati metodi pratici approssimativi per l’applicazione della meccanica quantistica Paul Dirac, 1929

Molti hanno raccolto la sfida di Dirac e presto i fisici hanno costruito tecniche matematiche che potevano approssimare il comportamento qualitativo dei legami molecolari e di altri fenomeni chimici. Questi metodi partono da una descrizione approssimativa di come gli elettroni si comportano, che può essere familiare dalla chimica introduttiva. In questa descrizione, a ogni elettrone viene assegnato un particolare orbitale, che dà la probabilità di trovare un singolo elettrone in qualsiasi punto vicino a un nucleo atomico. La forma di ogni orbitale dipende quindi dalla forma media di tutti gli altri orbitali. Poiché questa descrizione “campo medio” tratta ciascun elettrone come assegnato a un solo orbitale, è un’immagine molto incompleta di come gli elettroni si comportano effettivamente. Tuttavia, è sufficiente per stimare l’energia totale di una molecola con un errore di circa lo 0,5%.

Figura 1 - Orbitali atomici. La superficie indica l'area di alta probabilità di trovare un elettrone. Nella regione blu la funzione d'onda è positiva, mentre nella regione viola è negativa.

Sfortunatamente, un errore dello 0,5% non è ancora sufficiente per essere utile al chimico lavoratore. L’energia nei legami molecolari è solo una piccola frazione dell’energia totale di un sistema, e prevedere correttamente se una molecola è stabile può dipendere spesso solo dallo 0,001% dell’energia totale del sistema, o circa lo 0,2% dell’energia di “correlazione” rimanente. Ad esempio, mentre l’energia totale degli elettroni in una molecola di butadiene è quasi di 100.000 chilocalorie per mole, la differenza di energia tra diverse possibili forme della molecola è solo di 1 chilocaloria per mole. Ciò significa che se si vuole prevedere correttamente la forma naturale del butadiene, è necessario lo stesso livello di precisione che si usa per misurare la larghezza di un campo da calcio al millimetro.

Con l’avvento dei calcolatori digitali dopo la seconda guerra mondiale, gli scienziati hanno sviluppato una serie di metodi computazionali che vanno oltre questa descrizione di campo medio degli elettroni. Sebbene questi metodi siano abbreviati con un confuso elenco di sigle, generalmente si collocano da qualche parte su un asse che scambia accuratezza ed efficienza. Da un’estremità ci sono metodi essenzialmente esatti, ma la cui complessità cresce peggio di esponenziale con il numero di elettroni, rendendoli impraticabili per tutte tranne le molecole più piccole. Dall’altra estremità ci sono metodi che crescono linearmente, ma che non sono molto accurati. Questi metodi computazionali hanno avuto un enorme impatto sulla pratica della chimica – il Premio Nobel per la chimica del 1998 è stato assegnato agli ideatori di molti di questi algoritmi.

Reti neurali fermioniche

Nonostante l’ampia gamma di strumenti computazionali esistenti in meccanica quantistica, ritenevamo che fosse necessario un nuovo metodo per affrontare il problema della rappresentazione efficiente. C’è una ragione per cui i calcoli chimici quantistici più grandi possono gestire solo decine di migliaia di elettroni, anche con i metodi più approssimativi, mentre le tecniche di calcolo chimico classico come la dinamica molecolare possono gestire milioni di atomi. Lo stato di un sistema classico può essere facilmente descritto – dobbiamo solo tenere traccia della posizione e del momento di ogni particella. Rappresentare lo stato di un sistema quantistico è molto più sfidante. Una probabilità deve essere assegnata a ogni possibile configurazione delle posizioni degli elettroni. Questo viene codificato nella funzione d’onda, che assegna un numero positivo o negativo a ogni configurazione degli elettroni, e il quadrato della funzione d’onda fornisce la probabilità di trovare il sistema in quella configurazione. Lo spazio di tutte le possibili configurazioni è enorme – se si cercasse di rappresentarlo come una griglia con 100 punti lungo ogni dimensione, il numero di possibili configurazioni degli elettroni per l’atomo di silicio sarebbe maggiore del numero di atomi nell’universo!

Ecco esattamente dove pensavamo che le reti neurali profonde potessero aiutare. Negli ultimi anni ci sono stati enormi progressi nella rappresentazione di distribuzioni di probabilità complesse e ad alta dimensionalità con le reti neurali. Ora sappiamo come allenare queste reti in modo efficiente e scalabile. Abbiamo supposto che, dato che queste reti hanno già dimostrato la loro capacità di adattarsi a funzioni ad alta dimensionalità nei problemi di intelligenza artificiale, potrebbero essere utilizzate anche per rappresentare le funzioni d’onda quantistiche. Non siamo stati i primi a pensarci – ricercatori come Giuseppe Carleo, Matthias Troyer e altri hanno dimostrato come l’apprendimento profondo moderno potesse essere utilizzato per risolvere problemi quantistici idealizzati. Volevamo utilizzare le reti neurali profonde per affrontare problemi più realistici in chimica e fisica della materia condensata, e ciò significava includere gli elettroni nei nostri calcoli.

C’è solo un problema quando si tratta di trattare gli elettroni. Gli elettroni devono obbedire al principio di esclusione di Pauli, il che significa che non possono occupare lo stesso spazio nello stesso momento. Questo perché gli elettroni sono un tipo di particella nota come fermioni, che includono i mattoni fondamentali della maggior parte della materia – protoni, neutroni, quark, neutrini, ecc. La loro funzione d’onda deve essere antisimmetrica – se si scambiano le posizioni di due elettroni, la funzione d’onda viene moltiplicata per -1. Ciò significa che se due elettroni si trovano uno sopra l’altro, la funzione d’onda (e la probabilità di quella configurazione) sarà zero.

Ciò significava che dovevamo sviluppare un nuovo tipo di rete neurale che fosse antisimmetrica rispetto ai suoi input, che abbiamo chiamato Reti Neurali Fermioniche, o FermiNet. Nella maggior parte dei metodi di chimica quantistica, l’antisimmetria viene introdotta utilizzando una funzione chiamata determinante. Il determinante di una matrice ha la proprietà che se si scambiano due righe, l’output viene moltiplicato per -1, proprio come una funzione d’onda per i fermioni. Quindi è possibile prendere una serie di funzioni di singolo elettrone, valutarle per ogni elettrone nel sistema e inserire tutti i risultati in una matrice. Il determinante di quella matrice sarà quindi una funzione d’onda correttamente antisimmetrica. Il limite principale di questo approccio è che la funzione risultante – nota come determinante di Slater – non è molto generale. Le funzioni d’onda dei sistemi reali sono di solito molto più complesse. Il modo tipico per migliorare questo è prendere una grande combinazione lineare di determinanti di Slater – talvolta milioni o più – e aggiungere alcune semplici correzioni basate su coppie di elettroni. Anche così, potrebbe non essere sufficiente per calcolare accuratamente le energie.

Figura 2 - Illustrazione di un determinante di Slater. Ogni curva è un taglio attraverso uno degli orbitali della Figura 1. Quando gli elettroni 1 e 2 scambiano posizione, le righe del determinante di Slater si scambiano, e la funzione d'onda viene moltiplicata per -1. Questo garantisce che il principio di esclusione di Pauli venga rispettato.

Le reti neurali profonde possono spesso essere molto più efficienti nel rappresentare funzioni complesse rispetto alle combinazioni lineari di funzioni di base. Nel FermiNet, ciò viene raggiunto rendendo ogni funzione che entra nel determinante una funzione di tutti gli elettroni (1). Questo va molto oltre i metodi che utilizzano solo funzioni mono- e bi-elettroniche. Il FermiNet ha un flusso separato di informazioni per ogni elettrone. Senza alcuna interazione tra questi flussi, la rete sarebbe altrettanto espressiva di un determinante di Slater convenzionale. Per superare questo limite, aggreghiamo insieme le informazioni provenienti da tutti i flussi ad ogni livello della rete, e trasferiamo queste informazioni ad ogni flusso al livello successivo. In questo modo, questi flussi hanno le giuste proprietà di simmetria per creare una funzione antisimmetrica. Questo è simile a come le reti neurali grafiche aggregano le informazioni ad ogni livello. A differenza dei determinanti di Slater, i FermiNet sono approssimatori di funzioni universali, almeno nel limite in cui gli strati della rete neurale diventano sufficientemente ampi. Ciò significa che, se riusciamo ad addestrare correttamente queste reti, dovrebbero essere in grado di adattarsi alla soluzione quasi esatta dell’equazione di Schrödinger.

Figura 3 - Illustrazione del FermiNet. Un singolo flusso della rete (blu, viola o rosa) funziona in modo molto simile a un orbitale convenzionale. Il FermiNet introduce interazioni simmetriche tra i flussi, rendendo la funzione d'onda molto più generale ed espressiva. Proprio come un determinante di Slater convenzionale, lo scambio di due posizioni degli elettroni porta ancora allo scambio di due righe nel determinante, e alla moltiplicazione complessiva della funzione d'onda per -1.

Adattiamo il FermiNet minimizzando l’energia del sistema. Per farlo in modo esatto, dovremmo valutare la funzione d’onda in tutte le possibili configurazioni degli elettroni, quindi dobbiamo farlo in modo approssimato. Selezioniamo casualmente una serie di configurazioni di elettroni, valutiamo localmente l’energia per ogni disposizione di elettroni, sommiamo i contributi da ogni disposizione e minimizziamo questo invece dell’energia vera. Questo è noto come metodo di Monte Carlo, perché è un po’ come un giocatore d’azzardo che lancia i dadi più e più volte. Sebbene sia approssimativo, se abbiamo bisogno di maggiore precisione possiamo sempre lanciare di nuovo i dadi. Poiché il quadrato della funzione d’onda dà la probabilità di osservare una disposizione di particelle in una determinata posizione, è più conveniente generare campioni dalla stessa funzione d’onda – essenzialmente, simulando l’atto di osservazione delle particelle. Mentre la maggior parte delle reti neurali vengono addestrate utilizzando dati esterni, nel nostro caso gli input utilizzati per addestrare la rete neurale sono generati dalla stessa rete neurale. È un po’ come tirarsi su da soli tirandosi su per i lacci delle scarpe, e ciò significa che non abbiamo bisogno di alcun dato di addestramento oltre alle posizioni dei nuclei atomici intorno ai quali gli elettroni ballano. L’idea di base, nota come Monte Carlo quantistico variazionale (o VMC per abbreviare), è stata formulata negli anni ’60 ed è generalmente considerata un modo economico ma non molto accurato per calcolare l’energia di un sistema. Sostituendo le semplici funzioni d’onda basate sui determinanti di Slater con il FermiNet, abbiamo notevolmente aumentato l’accuratezza di questo approccio su ogni sistema che abbiamo esaminato.

Figura 4 - Elettroni simulati campionati dal FermiNet che si muovono attorno alla molecola di biciclobutano.

Per assicurarci che il FermiNet rappresenti davvero un avanzamento nello stato dell’arte, abbiamo iniziato investigando sistemi semplici e ben studiati, come gli atomi della prima riga della tavola periodica (idrogeno fino al neon). Questi sono sistemi piccoli – 10 elettroni o meno – e abbastanza semplici da poter essere trattati con i metodi più accurati (ma a scalabilità esponenziale). Il FermiNet supera di gran lunga i calcoli VMC comparabili, spesso riducendo l’errore rispetto ai calcoli a scalabilità esponenziale di almeno la metà. Su sistemi più grandi, i metodi a scalabilità esponenziale diventano inaffidabili, quindi utilizziamo il metodo del “cluster accoppiato” come riferimento. Questo metodo funziona bene sulle molecole nella loro configurazione stabile, ma fatica quando i legami si allungano o si rompono, il che è fondamentale per comprendere le reazioni chimiche. Sebbene si scalino molto meglio dell’esponenziale, il particolare metodo del cluster accoppiato che abbiamo utilizzato si scala ancora come il numero di elettroni elevato alla settima potenza, quindi può essere utilizzato solo per molecole di dimensioni VoAGI. Abbiamo applicato il FermiNet a molecole progressivamente più grandi, partendo dall’idruro di litio e arrivando a biciclobutano, il sistema più grande che abbiamo esaminato, con 30 elettroni. Sulle molecole più piccole, il FermiNet catturava una sorprendente percentuale del 99,8% della differenza tra l’energia del cluster accoppiato e l’energia ottenuta da un singolo determinante di Slater. Su biciclobutano, il FermiNet catturava ancora il 97% o più di questa energia di correlazione – un enorme successo per un approccio supposto “economico ma inaccurato”.

Fig 5 - Rappresentazione grafica della frazione di energia di correlazione catturata dal FermiNet sulle molecole. La barra viola indica il 99% dell'energia di correlazione. Da sinistra a destra: idruro di litio, azoto, etene, ozono, etanolo e biciclobutano.

Mentre i metodi del cluster accoppiato funzionano bene per le molecole stabili, la vera frontiera nella chimica computazionale è comprendere come le molecole si allungano, si torcono e si rompono. Lì, i metodi del cluster accoppiato spesso faticano, quindi dobbiamo confrontarli con il maggior numero possibile di basi per assicurarci di ottenere una risposta coerente. Abbiamo analizzato due sistemi di riferimento con legami allungati: la molecola di azoto (N2) e la catena di idrogeno con 10 atomi (H10). L’azoto è un legame molecolare particolarmente sfidante, perché ogni atomo di azoto contribuisce con 3 elettroni. La catena di idrogeno, invece, è interessante per comprendere il comportamento degli elettroni nei materiali, ad esempio per prevedere se un materiale condurrà o meno l’elettricità. Su entrambi i sistemi, il cluster accoppiato ha ottenuto buoni risultati all’equilibrio, ma ha avuto problemi quando i legami si allungavano. I calcoli VMC convenzionali hanno ottenuto scarsi risultati in generale. Ma il FermiNet è stato uno dei migliori metodi investigati, indipendentemente dalla lunghezza del legame.

Conclusioni

Crediamo che il FermiNet sia l’inizio di grandi progetti per la fusione di apprendimento profondo e chimica quantistica computazionale. La maggior parte dei sistemi che abbiamo finora esaminato sono ben studiati e compresi. Ma proprio come i primi buoni risultati con l’apprendimento profondo in altri campi hanno portato a una serie di lavori successivi e a un progresso rapido, speriamo che il FermiNet ispiri molti lavori sullo scaling e molte idee per nuove architetture di reti ancora migliori. Già, da quando abbiamo pubblicato per la prima volta il nostro lavoro su arXiv l’anno scorso, altri gruppi hanno condiviso le loro approcci all’applicazione dell’apprendimento profondo ai calcoli di primi principi sul problema dei molti elettroni. Abbiamo anche appena iniziato ad esplorare la fisica quantistica computazionale e non vediamo l’ora di applicare il FermiNet a problemi complessi nella scienza dei materiali e nella fisica della materia condensata. Soprattutto, speriamo che, rilasciando il codice sorgente utilizzato nei nostri esperimenti, possiamo ispirare altri ricercatori a costruire sul nostro lavoro e provare nuove applicazioni che nemmeno abbiamo sognato.