Un insieme di dati di riferimento per i modelli meteo basati sull’AI
Un insieme essenziale di dati di riferimento per i modelli meteo basati sull'IA
Confronta i modelli meteorologici basati sui dati con WeatherBench
I dataset di riferimento sono fondamentali per la ricerca di apprendimento automatico. Sono dataset standardizzati che sono facili da ottenere, pre-elaborati e puliti, rendendoli ideali per l’apprendimento automatico.
La previsione meteorologica basata sui dati è un argomento molto attivo. I laboratori di ricerca, tra cui NVIDIA, DeepMind e Huawei, stanno rilasciando algoritmi di apprendimento automatico in grado di competere con i servizi di previsione meteorologica consolidati.
Come possono essere confrontati tra loro questi modelli meteorologici basati sui dati e il riferimento delle previsioni meteorologiche “standard”? I dataset di riferimento e la valutazione standardizzata potrebbero essere utili.
In questo articolo, riassumiamo WeatherBench, un dataset di riferimento per la modellistica climatica e meteorologica sviluppato da Stephan Rasp e altri nel 2020 [1].
- Estendere la lunghezza del contesto nei grandi modelli di lingua
- Fondant AI rilascia il set di dati Fondant-25M di coppie immagine-testo con licenza Creative Commons
- Incontra POCO un nuovo framework di intelligenza artificiale per la stima della posa umana tridimensionale e della forma
In questo post del blog, faremo quanto segue:
- Rivedere dataset di riferimento ben noti come MNIST e fornire alcuni criteri importanti per un buon dataset di riferimento.
- Presentare il dataset di ri-analisi meteorologica globale ERA5, che è alla base di WeatherBench.
- Discutere WeatherBench e lo stato attuale della relativa classifica.
Dataset di riferimento
Il dataset di riferimento più famoso è probabilmente MNIST, una raccolta di cifre scritte a mano sviluppata originariamente per sistemi di elaborazione delle immagini. MNIST contiene 70.000 immagini, 60.000 per allenamento e 10.000 per test, e ogni immagine è un quadrato di 28 per 28 pixel in scala di grigi. Come nota Yann LeCun,
È un buon database per le persone che vogliono provare tecniche di apprendimento e metodi di riconoscimento di modelli su dati del mondo reale, spendendo un minimo sforzo per la preelaborazione e la formattazione.
Altri dataset di riferimento interessanti includono
- FashionMNIST: Una collezione di 70.000 immagini di prodotti di moda simile a MNIST, sviluppata dal rivenditore online Zalando.
- ImageNet: 14 milioni di immagini divise in oltre 20.000 categorie. Usato nel riconoscimento visivo su larga scala di ImageNet…