Un insieme di dati di riferimento per i modelli meteo basati sull’AI

Un insieme essenziale di dati di riferimento per i modelli meteo basati sull'IA

Confronta i modelli meteorologici basati sui dati con WeatherBench

Foto di NOAA su Unsplash

I dataset di riferimento sono fondamentali per la ricerca di apprendimento automatico. Sono dataset standardizzati che sono facili da ottenere, pre-elaborati e puliti, rendendoli ideali per l’apprendimento automatico.

La previsione meteorologica basata sui dati è un argomento molto attivo. I laboratori di ricerca, tra cui NVIDIA, DeepMind e Huawei, stanno rilasciando algoritmi di apprendimento automatico in grado di competere con i servizi di previsione meteorologica consolidati.

Come possono essere confrontati tra loro questi modelli meteorologici basati sui dati e il riferimento delle previsioni meteorologiche “standard”? I dataset di riferimento e la valutazione standardizzata potrebbero essere utili.

In questo articolo, riassumiamo WeatherBench, un dataset di riferimento per la modellistica climatica e meteorologica sviluppato da Stephan Rasp e altri nel 2020 [1].

In questo post del blog, faremo quanto segue:

  1. Rivedere dataset di riferimento ben noti come MNIST e fornire alcuni criteri importanti per un buon dataset di riferimento.
  2. Presentare il dataset di ri-analisi meteorologica globale ERA5, che è alla base di WeatherBench.
  3. Discutere WeatherBench e lo stato attuale della relativa classifica.

Dataset di riferimento

Il dataset di riferimento più famoso è probabilmente MNIST, una raccolta di cifre scritte a mano sviluppata originariamente per sistemi di elaborazione delle immagini. MNIST contiene 70.000 immagini, 60.000 per allenamento e 10.000 per test, e ogni immagine è un quadrato di 28 per 28 pixel in scala di grigi. Come nota Yann LeCun,

È un buon database per le persone che vogliono provare tecniche di apprendimento e metodi di riconoscimento di modelli su dati del mondo reale, spendendo un minimo sforzo per la preelaborazione e la formattazione.

Esempi di cifre scritte a mano dal dataset MNIST. Credito: Josef Steppan [CC-BY-SA 4.0]

Altri dataset di riferimento interessanti includono

  • FashionMNIST: Una collezione di 70.000 immagini di prodotti di moda simile a MNIST, sviluppata dal rivenditore online Zalando.
  • ImageNet: 14 milioni di immagini divise in oltre 20.000 categorie. Usato nel riconoscimento visivo su larga scala di ImageNet…