Mettere alla prova il tuo modello di previsione una guida al backtesting

Prova il tuo modello di previsione una guida al backtesting

Immagine generata utilizzando Midjourney

Impara come valutare correttamente le prestazioni dei modelli di serie storiche tramite backtesting

Valutare i modelli di serie storiche non è un compito semplice. In effetti, è abbastanza facile commettere errori gravi durante la valutazione dei modelli di previsione. Sebbene questi errori non possano interrompere il codice o impedirci di ottenere alcuni numeri di output, possono influenzare significativamente l’accuratezza di tali stime delle prestazioni.

In questo articolo, mostreremo come valutare correttamente i modelli di serie storiche.

Perché i metodi standard di apprendimento automatico non sono adatti alle serie storiche?

Il modo più semplice per valutare le prestazioni di un modello di apprendimento automatico è suddividere l’insieme di dati in due subset: set di addestramento e di test. Per migliorare ulteriormente la robustezza della nostra stima delle prestazioni, potremmo voler suddividere il nostro insieme di dati più volte. Questa procedura è chiamata convalida incrociata.

Il diagramma seguente rappresenta uno dei tipi più popolari di convalida incrociata: l’approccio k-fold. Nel caso di una convalida a 5 fold, dividiamo prima l’insieme di dati in 5 parti. Successivamente, addestriamo il modello utilizzando 4 di queste parti e valutiamo le sue prestazioni sulla quinta parte. Questo processo viene ripetuto altre 4 volte, tenendo ogni volta una parte diversa per la valutazione.

Convalida incrociata a 5 fold

Sulla base del diagramma, probabilmente puoi identificare il problema nell’utilizzo di questo approccio per le previsioni. Nella maggior parte dei casi, addestriamo il modello utilizzando dati che cronologicamente arrivano dopo l’insieme di valutazione. Questo comporta una perdita di dati, che dovremmo assolutamente evitare. Un potenziale rischio è che un modello possa imparare pattern dal futuro che non si sono ancora rivelati nel passato. Di conseguenza, ciò porterebbe a stime delle prestazioni eccessivamente ottimistiche.

La convalida a k fold, insieme a molti altri approcci, si basa sull’assunzione che le osservazioni siano indipendenti. Le dipendenze temporali nei dati delle serie storiche non sono chiaramente in linea con questa assunzione, il che rende la maggior parte delle convalida…