Visualizzazione della cross-validazione di Sklearn K-Fold, Shuffle & Split e Time Series Split

Visualizzazione della cross-validazione di Sklearn

Plottare il processo di validazione incrociata Sklearn K-Fold, Shuffle & Split e Time Series Split e mostrare i risultati di validazione usando Python

Foto di Ryoji Iwata su Unsplash

Cos’è la Validazione Incrociata?

Fondamentalmente, la validazione incrociata è un metodo statistico per valutare gli algoritmi di apprendimento. Un numero fisso di fold (gruppi di dati) viene impostato per eseguire l’analisi. Questi fold raggruppano i dati in 2 set: set di addestramento e di test (validazione), che si alternano in round, permettendo a ciascun punto dati di essere convalidato.

Lo scopo principale è testare la capacità del modello di prevedere dati indipendenti che non sono stati utilizzati per crearlo. È anche utile per affrontare problemi come l’overfitting o la selezione tendenziosa.

Un esempio di risultati da validazioni incrociate in questo articolo. Immagine dell'autore.

In questo articolo, utilizzeremo Python per visualizzare il processo di 3 tipi di validazione incrociata dalla libreria Scikit Learn:

  • Validazione Incrociata K-Fold
  • Validazione Incrociata Shuffle & Split
  • Validazione Incrociata Time Series Split

Inoltre, i risultati di validazione possono anche essere plottati per esprimere informazioni interessanti.

Iniziamo

1. Validazione Incrociata K-Fold

K-fold è un metodo comune per la validazione incrociata. Inizialmente, tutti i dati vengono divisi in fold. Quindi, il modello di apprendimento viene creato a partire dal set di addestramento (k-1 fold) e il set di test (il fold rimanente) viene utilizzato per la convalida.

Normalmente, i fold ottenuti dalla validazione incrociata K-Fold vengono divisi in modo il più equo possibile. Vedremo ora il processo di validazione incrociata K-Fold.

Importare le librerie e caricare i dati

Ad esempio, in questo articolo lavoreremo con il dataset del vino, che può essere scaricato dalla libreria Sklearn. Il dataset è una copia dei dati del vino UCI ML con licenza CC BY 4.0.