Un ricercatore dell’UCLA ha sviluppato una libreria Python chiamata ClimateLearn per accedere ai dati climatici di ultima generazione e ai modelli di apprendimento automatico in modo standardizzato e semplice.

Un ricercatore dell'UCLA ha creato una libreria Python chiamata ClimateLearn per l'accesso semplificato e standardizzato ai dati climatici più recenti e ai modelli di apprendimento automatico.

Le condizioni meteorologiche estreme stanno diventando un evento tipico, specialmente negli ultimi anni. Il cambiamento climatico è il principale fattore responsabile di tali fenomeni meteorologici estremi, dalle piogge torrenziali viste in Pakistan che hanno sommerso ampie porzioni del paese sott’acqua alle ondate di calore eccezionali che hanno alimentato gli incendi boschivi in Portogallo e Spagna. La temperatura media della superficie terrestre è prevista aumentare di circa quattro gradi nel prossimo decennio se non si adottano presto le adeguate misure. Secondo gli scienziati, questo aumento di temperatura contribuirà ulteriormente all’occorrenza di eventi meteorologici estremi più frequenti.

I modelli di circolazione generale (GCM) sono strumenti che gli scienziati utilizzano per prevedere il tempo e il clima nel futuro. I GCM sono un sistema di equazioni differenziali che possono essere integrate nel tempo per produrre previsioni per varie variabili, tra cui temperatura, velocità del vento, precipitazioni, ecc. Questi modelli sono molto semplici da comprendere e producono risultati apprezzabilmente accurati. Tuttavia, il problema principale di questi modelli è che l’esecuzione delle simulazioni richiede una notevole potenza di calcolo. Inoltre, diventa difficile adattare i modelli quando ci sono molti dati di addestramento.

È qui che le tecniche di apprendimento automatico si dimostrano utili. In particolare nella “previsione del tempo” e nella “riduzione della risoluzione spaziale”, questi algoritmi si sono dimostrati competitivi con i modelli climatici più consolidati. La previsione del tempo si riferisce all’anticipazione delle future variabili climatiche. Ad esempio, dobbiamo prevedere la quantità di pioggia per la prossima settimana a Meghalaya utilizzando le informazioni sulla pioggia giornaliera (in cm) della settimana precedente. La questione della riduzione della risoluzione spaziale dei modelli climatici grossolani, ad esempio, da una griglia di 100 km x 100 km a una griglia di 1 km x 1 km, è nota come riduzione della risoluzione spaziale.

La previsione e la riduzione della risoluzione possono essere analoghe a una varietà di compiti di visione artificiale. Tuttavia, la principale differenza nella previsione del tempo, nella riduzione della risoluzione spaziale e in altri compiti di visione artificiale è che il modello di apprendimento automatico deve utilizzare input esogeni in varie modalità. Ad esempio, diversi elementi, come umidità e velocità del vento, insieme a temperature superficiali storiche, avranno un impatto sulle temperature superficiali future. Queste variabili devono essere fornite come input al modello, insieme alle temperature superficiali.

La ricerca sull’apprendimento profondo è esplosa negli ultimi anni e gli scienziati che studiano l’apprendimento automatico e i cambiamenti climatici stanno ora esaminando come le tecniche di apprendimento profondo potrebbero affrontare le questioni della previsione del tempo e della riduzione della risoluzione spaziale. Quando si tratta di applicare l’apprendimento automatico, le due adottano approcci contrastanti. Gli scienziati che studiano l’apprendimento automatico pongono maggior enfasi su quali architetture sono più adatte a quali problemi e su come elaborare i dati in modo adatto ai moderni metodi di apprendimento automatico, mentre gli scienziati del clima fanno un uso maggiore di equazioni fisiche e tengono presente le metriche di valutazione necessarie.

Tuttavia, il linguaggio ambiguo (“bias” nella modellazione climatica rispetto a “bias” nell’apprendimento automatico), la mancanza di standardizzazione nell’applicazione dell’apprendimento automatico per le sfide della scienza del clima e la mancanza di competenze nell’analisi dei dati climatici hanno ostacolato la loro capacità di sfruttare appieno il loro potenziale. Per affrontare questi problemi, i ricercatori dell’Università della California, Los Angeles (UCLA), hanno sviluppato ClimateLearn, un pacchetto Python che consente un facile accesso standardizzato a enormi dati climatici e modelli di apprendimento automatico all’avanguardia. Una varietà di set di dati, modelli di base all’avanguardia e un insieme di metriche e visualizzazioni sono tutti accessibili tramite il pacchetto, che consente il benchmarking su larga scala delle tecniche di previsione del tempo e riduzione della risoluzione spaziale.

ClimateLearn fornisce dati in un formato che le attuali architetture di apprendimento profondo possono utilizzare facilmente. Il pacchetto include dati da ERA5, la rianalisi di quinta generazione del clima globale storico, e dati meteorologici dal Centro europeo per le previsioni meteorologiche a medio termine (ECMWF). Un set di dati di rianalisi utilizza tecniche di modellazione e assimilazione dei dati per unire dati storici in stime globali. Grazie a questa combinazione di dati reali e modellazione, le soluzioni di rianalisi possono avere dati globali completi con una ragionevole accuratezza. ClimateLearn supporta anche i dati preelaborati di ERA5 da WeatherBench, un set di dati di riferimento per la previsione del tempo basata sui dati, oltre ai dati ERA5 grezzi.

I modelli di base implementati in ClimateLearn sono ben regolati per i compiti climatici e possono essere facilmente estesi per altre pipeline a valle nella scienza del clima. Semplici tecniche statistiche come la regressione lineare, la persistenza e la climatologia sono solo alcuni esempi della gamma di algoritmi di apprendimento automatico standard supportati da ClimateLearn. Sono disponibili anche algoritmi di apprendimento profondo più sofisticati come reti neurali convoluzionali residuali, U-net e vision transformers. Il pacchetto fornisce inoltre il supporto per visualizzare rapidamente le previsioni del modello utilizzando metriche come l’errore quadratico medio (ponderato per la latitudine), il coefficiente di correlazione delle anomalie e il coefficiente di correlazione di Pearson. Inoltre, ClimateLearn fornisce la visualizzazione delle previsioni del modello, della verità di riferimento e della discrepanza tra le due.

L’obiettivo principale dei ricercatori nello sviluppo di ClimateLearn era colmare la distanza tra le comunità della scienza del clima e dell’apprendimento automatico, rendendo facilmente accessibili i dataset sul clima, fornendo modelli di base per una facile comparazione e metriche di visualizzazione per comprendere gli output dei modelli. In futuro, i ricercatori intendono aggiungere il supporto per nuovi dataset, come CMIP6 (il sesto progetto di interconfronto dei modelli climatici). Il team supporterà anche la previsione probabilistica con nuove metriche di quantificazione dell’incertezza e diversi metodi di apprendimento automatico come le reti neurali bayesiane e i modelli di diffusione. Le opportunità aggiuntive che i ricercatori dell’apprendimento automatico possono aprire conoscendo meglio le prestazioni, l’espressività e la robustezza dei modelli entusiasmano molto i ricercatori. Inoltre, gli scienziati del clima saranno in grado di capire come modificare i valori delle variabili di input cambierà le distribuzioni dei risultati. Il team ha anche pianificato di rendere il pacchetto open-source e si aspetta con interesse i contributi di tutta la comunità.

Presentiamo ClimateLearn, una nuova libreria PyTorch per accedere a dataset sul clima, modelli di apprendimento automatico all’avanguardia e pipeline di addestramento e visualizzazione di alta qualità. Blog: https://t.co/BarGdNWQiT Documentazione: https://t.co/RBiQFbeqaJ Quickstart Colab: https://t.co/RjgqOo2tX0 (1/n)

— Aditya Grover (@adityagrover_) 13 gennaio 2023