Scopri ClimSim un innovativo set di dati di simulazione del clima a scala multipla per unire l’apprendimento automatico e la fisica nella ricerca sul clima

Scopri ClimSim un innovativo set di dati di simulazione multi-scala del clima che fonde l'apprendimento automatico e la fisica nella ricerca climatica

Le previsioni numeriche delle simulazioni fisiche sono la principale fonte di informazioni utilizzate per guidare le politiche sul cambiamento climatico. Nonostante stiano spingendo i limiti dei supercomputer più potenti, i simulatori climatici esistenti devono simulare la fisica delle nuvole e delle intense precipitazioni. La complessità del sistema terrestre limita notevolmente la risoluzione spaziale che il team di ricerca può impiegare in queste simulazioni. Le “parametrizzazioni” sono rappresentazioni matematiche basate sull’empirismo della fisica che avviene su scale inferiori rispetto alle risoluzioni temporali e geografiche delle simulazioni climatiche. Purtroppo, le ipotesi utilizzate in queste parametrizzazioni spesso portano a errori che potrebbero peggiorare il clima previsto in futuro. 

Un metodo convincente per simulare processi fisici complessi e non lineari che si verificano su scale più piccole rispetto alla risoluzione del simulatore climatico con una complessità del computer inferiore è l’apprendimento automatico (ML). L’aspetto affascinante della sua applicazione è che porterà a simulazioni climatiche più accurate e meno costose rispetto a quelle attuali. La scala risolvibile più piccola delle attuali simulazioni climatiche è tipicamente di 80-200 km, o delle dimensioni di una contea media degli Stati Uniti. Tuttavia, è necessaria una risoluzione di 100 m o superiore per descrivere efficacemente la formazione delle nuvole, il che richiede un aumento di ordini di grandezza della potenza di calcolo. 

Utilizzare l’apprendimento automatico (ML) per superare i vincoli del calcolo classico rimane un’opzione valida. I simulatori climatici ibridiML risultanti combinano gli emulatori ML degli effetti macroscala della fisica su scala ridotta con metodi numerici convenzionali per risolvere le equazioni che governano i movimenti fluidi a grande scala dell’atmosfera terrestre. Gli emulatori imparano direttamente dai dati prodotti da simulazioni ad alta risoluzione e breve durata anziché basarsi su ipotesi euristiche su questi processi su scala ridotta. In sostanza, si tratta di un problema di regressione: dati in input a grande scala risolti, l’emulatore di parametrizzazioni ML nella simulazione climatica restituisce i risultati a grande scala (come i cambiamenti nel vento, umidità o temperatura) che derivano da fisica su scala ridotta (sub-scala) non risolta. 

Anche se sono stati sviluppati di recente diversi esempi concettuali, le simulazioni climatiche ibrid-ML devono ancora essere implementate operativamente. Uno dei principali ostacoli che impediscono all’ambiente ML di essere interessato è la necessità di avere dati di allenamento sufficienti. Tutti i fattori macroscala che controllano il comportamento della fisica su scala ridotta devono essere inclusi in questi dati affinché funzionino con le simulazioni climatiche ibride ML successive. È stato dimostrato che affrontare questo problema utilizzando dati di allenamento da simulazioni costantemente ad alta risoluzione è molto costoso e può causare problemi quando combinato con una simulazione climatica ospitante. Utilizzare tecniche di simulazione climatica multiscala per produrre dati di allenamento è un approccio fattibile. Più importantemente, questi offrono un’interfaccia chiara tra le dinamiche a scala planetaria del simulatore climatico ospitante e la fisica ad alta risoluzione imitata. Ciò rende teoricamente le simulazioni accoppiate ibride a valle gestibili e accessibili. A causa della mancanza di set di dati disponibili e dell’esigenza di competenza di dominio nella selezione delle variabili, la complessità del codice di simulazione operativa e la scarsità di set di dati disponibili hanno ostacolato l’applicazione pratica degli approcci multiscala. 

Per l’utilizzo nelle simulazioni climatiche ibrid-ML, il team di ricerca, composto da ricercatori di oltre 20 prestigiose istituzioni di ricerca, presenta ClimSim, il più grande e completo set di dati per allenare simulatori di apprendimento automatico di tempeste atmosferiche, nuvole, turbolenza, precipitazioni e radiazioni. ClimSim è un insieme completo di dati in input e output provenienti da simulazioni climatiche fisiche multiscala. Per ridurre gli ostacoli all’accesso per i specialisti in ML su questa questione importante, gli sviluppatori di simulatori climatici e gli scienziati atmosferici hanno creato ClimSim. Il loro set di dati di riferimento fornisce una base solida per la costruzione di strutture robuste che modellano le parametrizzazioni della fisica delle nuvole e delle intense precipitazioni e come interagiscono con altri fenomeni su scala ridotta. Agevolando l’accoppiamento online all’interno del simulatore climatico a risoluzione inferiore ospitante, queste strutture aiutano i simulatori climatici utilizzati per le previsioni a lungo termine a operare in modo più accurato e performante nel complesso.