Visualizzazione della cross-validazione di Sklearn K-Fold, Shuffle & Split e Time Series Split
Visualizzazione della cross-validazione di Sklearn
Plottare il processo di validazione incrociata Sklearn K-Fold, Shuffle & Split e Time Series Split e mostrare i risultati di validazione usando Python
Cos’è la Validazione Incrociata?
Fondamentalmente, la validazione incrociata è un metodo statistico per valutare gli algoritmi di apprendimento. Un numero fisso di fold (gruppi di dati) viene impostato per eseguire l’analisi. Questi fold raggruppano i dati in 2 set: set di addestramento e di test (validazione), che si alternano in round, permettendo a ciascun punto dati di essere convalidato.
Lo scopo principale è testare la capacità del modello di prevedere dati indipendenti che non sono stati utilizzati per crearlo. È anche utile per affrontare problemi come l’overfitting o la selezione tendenziosa.
In questo articolo, utilizzeremo Python per visualizzare il processo di 3 tipi di validazione incrociata dalla libreria Scikit Learn:
- Validazione Incrociata K-Fold
- Validazione Incrociata Shuffle & Split
- Validazione Incrociata Time Series Split
Inoltre, i risultati di validazione possono anche essere plottati per esprimere informazioni interessanti.
- Come avviare un’agenzia di intelligenza artificiale (senza esperienza di programmazione)
- Operazioni di Machine Learning (MLOps) con Azure Machine Learning
- Dal testo al di là delle parole
Iniziamo
1. Validazione Incrociata K-Fold
K-fold è un metodo comune per la validazione incrociata. Inizialmente, tutti i dati vengono divisi in fold. Quindi, il modello di apprendimento viene creato a partire dal set di addestramento (k-1 fold) e il set di test (il fold rimanente) viene utilizzato per la convalida.
Normalmente, i fold ottenuti dalla validazione incrociata K-Fold vengono divisi in modo il più equo possibile. Vedremo ora il processo di validazione incrociata K-Fold.
Importare le librerie e caricare i dati
Ad esempio, in questo articolo lavoreremo con il dataset del vino, che può essere scaricato dalla libreria Sklearn. Il dataset è una copia dei dati del vino UCI ML con licenza CC BY 4.0.