I ricercatori di Google introducono una libreria open source in JAX per il deep learning su superfici sferiche

I ricercatori di Google lanciano una nuova libreria open source in JAX per il deep learning su superfici sferiche

Deep learning, una sotto-categoria di machine learning, apprende automaticamente rappresentazioni complesse dall’input. Le sue applicazioni sono utilizzate in molti campi, come il riconoscimento di immagini e il riconoscimento del linguaggio per l’elaborazione del linguaggio, la rilevazione degli oggetti e la diagnostica dell’imaging medico; finanza per il trading algoritmico e la rilevazione delle frodi; veicoli autonomi che utilizzano reti neurali convoluzionali per la presa di decisioni in tempo reale; e sistemi di raccomandazione per contenuti personalizzati.

Le reti neurali convoluzionali (CNN) e i vision transformer (ViT), due esempi di modelli di deep learning per la visione artificiale, analizzano i segnali assumendo regioni pianari (piatte). Ad esempio, le fotografie digitali vengono presentate come una griglia di pixel su una superficie piatta. Tuttavia, questo tipo di dati rappresenta solo una frazione dei dati diversi incontrati nelle applicazioni scientifiche.

Tuttavia, ci sono alcune cose che potrebbero essere migliorate elaborando segnali sferici utilizzando un approccio piano. In primo luogo, c’è un problema di campionamento, il che significa che è impossibile definire griglie uniformi sulla sfera, necessarie per le CNN e i ViT pianari, senza una significativa distorsione. In secondo luogo, le rotazioni confondono frequentemente i segnali e i pattern locali sulla sfera. Per garantire che il modello apprenda accuratamente le caratteristiche, abbiamo bisogno di equivarianza alle rotazioni tridimensionali. Di conseguenza, i parametri del modello vengono utilizzati in modo più efficace e è possibile addestrarlo con meno dati.

In modo intuitivo, sia la previsione delle proprietà molecolari che la previsione del clima dovrebbero trarre vantaggio dalle CNN sferiche. Le proprietà intrinseche delle molecole sono invarianti alle rotazioni della struttura tridimensionale (posizione degli atomi), quindi le rappresentazioni con equivarianza di rotazione fornirebbero un modo naturale per codificare questa simmetria.

Dunque, i ricercatori hanno formulato una libreria open source in JAX per il deep learning su superfici sferiche. Supera i risultati di punta su benchmark per la previsione delle proprietà molecolari e la previsione del tempo, tipicamente gestiti da trasformatori e reti neurali grafiche.

I ricercatori hanno evidenziato che questa soluzione risolve sia i problemi del campionamento che della robustezza alle rotazioni. Lo fa sfruttando operazioni di convoluzione sferica e di correlazione incrociata. Le CNN sferiche offrono applicazioni promettenti in due domini critici: ricerca medica e analisi del clima, con il potenziale per catalizzare progressi trasformativi per la società.

Le CNN sferiche presentano un vantaggio teorico nella risoluzione delle sfide legate alla previsione delle proprietà chimiche e alla comprensione degli stati climatici. Sfruttare rappresentazioni con equivarianza di rotazione diventa particolarmente logico nel catturare le simmetrie intrinseche delle strutture molecolari, in cui le proprietà rimangono invarianti alle rotazioni tridimensionali (posizioni degli atomi).

Dato che i dati atmosferici sono naturalmente visualizzati su una sfera, le CNN sferiche sono adatte a questo compito. Possono inoltre gestire efficacemente pattern ripetuti in tali dati in vari luoghi e orientamenti.

I ricercatori hanno affermato che i loro modelli superano o eguagliano i modelli neurali meteorologici basati su tradizionali CNN su diversi benchmark per la previsione del tempo. Il modello prevede i valori di diverse variabili atmosferiche sei ore in anticipo e i risultati da un ambiente di test sono mostrati di seguito. Successivamente, il modello viene valutato fino a cinque giorni in anticipo durante addestramento e fa previsioni fino a tre giorni in anticipo.

Inoltre, i modelli mostrano un’eccezionale performance in diverse situazioni di previsione del tempo, dimostrando l’efficacia delle CNN sferiche come modelli meteorologici neurali in un’impresa rivoluzionaria. Questo studio illustra le migliori strategie per scalare le CNN sferiche e fornisce dati reali a supporto della loro applicabilità in queste particolari applicazioni.