Predire i touchdown nel football con il machine learning

Prevedere i touchdown nel football attraverso il machine learning

Calcio. Un passatempo americano che unisce i tifosi di tutto il paese. Con una media di 16,7 milioni di spettatori per partita e 113 milioni di telespettatori nel Super Bowl LVII, lo sport è chiaramente amato da molti. Ho creato un modello di apprendimento automatico per analizzare il gioco. Andiamo a scoprirlo.

Innanzitutto, dovremmo riconoscere il giocatore chiave nell’attacco di qualsiasi squadra di calcio: il quarterback. Questo giocatore distribuisce la palla ai compagni di squadra nella speranza di guadagnare yard o, ancora meglio, segnare un touchdown (trova le regole di base del gioco qui). I touchdown premiano le squadre con il maggior numero di punti tra tutte le opzioni di punteggio, e sebbene siano difficili da ottenere, sono generalmente una priorità in attacco. E se potessimo analizzare i fattori che portano a touchdown e prevedere quali quarterback avranno il miglior rendimento nelle prossime stagioni?

Foto di Keith Johnston su Unsplash

Dati. Ci sono molti dati sul calcio. Ho trovato file csv statistica su statistica risalenti addirittura al 1999 in questo repository GitHub (inclusi i nomi dei giocatori chiave, le yard guadagnate, i passaggi completati, ecc.). Una quantità così estesa di dati richiede… l’apprendimento automatico!

Caratteristiche. Prima di creare il modello di apprendimento automatico, ho dovuto capire quali caratteristiche sono più correlate ai touchdown (ci sono 372 caratteristiche nel set di dati!). Testando e rappresentando graficamente vari fattori, ho scoperto che i cinque fattori più correlati ai touchdown sono le yard guadagnate, i passaggi completati, i passaggi in generale, le intercettazioni e i sack. Questi fattori correlano progressivamente meno con i touchdown, ed è importante ricordare che la correlazione non implica causalità. Ad esempio, se un quarterback ha lanciato più intercettazioni, potrebbe essere semplicemente un’indicazione che ha giocato/lanciato molto, cosa che potrebbe influire anche sul numero di touchdown. Sebbene la corsa possa essere il principale modo di segnare per alcuni quarterback, questi dati riguardano tutti i quarterback della lega. Ciò significa che alcuni giocatori fuori dal comune potrebbero segnare più touchdown senza lanciare tanto perché segnano attraverso altri metodi, come la corsa.

Correlazione dei touchdown con le statistiche della stessa stagione

Da un anno all’altro. Chiaramente, in un anno, alcune statistiche del quarterback sono correlate ai loro touchdown. Tuttavia, le statistiche della stagione precedente possono essere correlate ai loro touchdown? In altre parole, le statistiche di un quarterback di una stagione possono indicare le sue prestazioni nella stagione successiva? Dovevo saperlo, poiché questa è una parte fondamentale per prevedere il successo dei quarterback nelle stagioni future. Dopo aver rappresentato graficamente i touchdown con le statistiche della stagione precedente, ho scoperto che c’è ancora una correlazione! Inoltre, questa volta possiamo includere anche la correlazione tra i touchdown delle stagioni precedenti e attuale. Purtroppo, la correlazione non è così forte come prima, ma significa ancora che possiamo passare al prossimo passo: l’apprendimento automatico.

Correlazione dei touchdown con le statistiche della stagione precedente

Apprendimento automatico. Utilizzando l’apprendimento automatico, possiamo prevedere quali quarterback avranno successo nella prossima stagione di calcio. La regressione lineare, un termine che potresti ricordare dalle lezioni di matematica, è la tecnica di analisi dei dati che predice il valore di dati sconosciuti (i touchdown) utilizzando dati correlati e noti (le caratteristiche che abbiamo deciso in precedenza). Ho creato il modello di regressione lineare utilizzando una divisione dei dati tra allenamento e test (spiegazione semplice). In realtà ho anche testato un modello a foreste casuali, ma il modello di regressione ha ottenuto risultati migliori.

E potresti chiederti, un modello di regressione lineare conta davvero come apprendimento automatico? Sì, conta, principalmente perché coinvolge l’utilizzo di tecniche statistiche per apprendere un modello dai dati che possono effettuare previsioni o stimare relazioni tra variabili; questo è un concetto fondamentale nel campo dell’apprendimento automatico.

Fattori esterni. È importante notare che molti fattori giocano un ruolo nel determinare cosa rende un quarterback “bravo”. Ad esempio, gli altri giocatori nella squadra del quarterback, l’allenamento del quarterback e le loro abilità specifiche, come il gioco di corsa rispetto al lancio, giocano tutti un ruolo. Questi fattori possono essere sfidanti da considerare nel processo di allenamento e gli effetti saranno probabilmente visibili nelle previsioni finali. Ecco perché ho focalizzato questo modello solo sui touchdown completati anziché sulle classifiche generali dei quarterback.

Risultati. Con un errore quadratico medio di 7,4649 (il che significa che le previsioni si discostano di circa 7,5 touchdown in media) e un punteggio r-quadrato di 0,709 (il che significa che le variabili hanno un forte effetto sulla variabile dipendente), direi che il modello ha funzionato decentemente. Aspetta, ma non sembra così fantastico! Come accennato in precedenza, nel football entrano in gioco altri fattori come infortuni, rookie, ecc. Il mio modello ha previsto correttamente 6 dei 10 migliori realizzatori di touchdown per il 2022 basandosi sui dati del 2021, con le previsioni errate giustificate dall’età, dagli infortuni e da altri fattori. Ho anche testato il modello per prevedere il successo dei quarterback nella prossima stagione NFL 23-24 ed è stato piuttosto efficace! Le previsioni dei migliori 10 realizzatori di touchdown si sono allineate con 7 delle 10 previsioni QB di Fox News, con le discrepanze giustificate dagli infortuni, dall’essere bravi in altre cose (come yard corse invece di lanci), da una stagione precedente deludente o da un nuovo team. E chissà, magari le mie previsioni si riveleranno accurate!

Previsioni dei migliori 10 QB della NFL per touchdown nel 2023-2024. (La scritta “Preds” si riferisce al numero totale di touchdown previsti)

Cosa significa tutto ciò? Ho creato un modello di apprendimento automatico che può prevedere i touchdown dei quarterback con una precisione ragionevolmente alta individuando schemi intricati in dati complessi. Questo dimostra quanto sia potente l’apprendimento automatico e quanto abbia una vasta gamma di applicazioni. È importante ricordare che in certe aree, come il football, sono richieste altre informazioni per fare la migliore valutazione dei giocatori e delle statistiche. Ma chissà? Forse utilizzando questo modello potresti aiutarti a vincere scommesse o le tue leghe di fantasy football. Beh, c’è qualcos’altro che puoi fare con questo? L’applicazione più evidente è quando si analizzano squadre e leghe in generale. Mentre abbiamo analizzato i touchdown dei quarterback con dati di gioco per gioco degli anni passati, possono essere implementate e utilizzate altre informazioni per analizzare il successo dei quarterback nel complesso, diverse posizioni e le squadre nel loro complesso. Esplorare i dati del football (o dei dati sportivi in generale) può portare a intuizioni e previsioni che cambiano il gioco. Affrontare lo sport da un punto di vista analitico non è una novità, ma essere dotati della migliore tecnologia potente che abbiamo oggi sicuramente rivoluzionerà il nostro modo di comprendere, analizzare ed eccellere nel gioco.

Forse in futuro saremo in grado di avere un computer che prevede un tabellone perfetto o che fa scommesse sportive ottimali usando l’apprendimento automatico…

Puoi trovare il mio codice nel mio repository GitHub qui.

Di seguito elenco alcune altre risorse e fonti che potrebbero essere interessanti: