Sono utili le competizioni Kaggle per i problemi del mondo reale?

Le competizioni Kaggle sono utili per risolvere i problemi del mondo reale?

Se ti stai avventurando nell’industria tecnologica da poco tempo o ci sei già da un po’, avrai sentito parlare di Kaggle. Si tratta di una piattaforma di competizioni di data science rivolta a scienziati dei dati e appassionati di machine learning.

L’obiettivo di questa piattaforma online è guidare gli utenti nella loro carriera professionale per raggiungere i loro obiettivi nel campo della data science o del machine learning, fornendo strumenti potenti e risorse.

Poiché le persone cercano di migliorarsi e progredire nelle loro carriere, si vedono molte persone che si riversano verso corsi online, competizioni, e altro ancora. Kaggle è una piattaforma straordinaria per le persone che vogliono mettersi alla prova, immergersi nel mondo reale e confrontarsi con la realtà delle proprie competenze.

Molte persone hanno realizzato progetti sulla piattaforma Kaggle, avendo accesso a una varietà di dataset e a risorse eccezionali come l’accesso gratuito alle GPU NVIDIA K80 in kernel. La domanda che ci poniamo oggi è: “Le competizioni su Kaggle sono utili per i problemi del mondo reale?”.

Una domanda è stata posta su Quora: dovrei investire il mio tempo partecipando a Kaggle o lavorando a progetti secondari interessanti? Cosa sarà più vantaggioso per la mia carriera?

Diverse risposte sono state fornite, ma come si può vedere nell’immagine screenshot qui sotto, la risposta alla tua domanda viene spiegata. Andiamo a vedere se le competizioni su Kaggle sono utili per i problemi del mondo reale.

Kaggle vs. Real-World

Abbiamo parlato di come le competizioni su Kaggle aiutano nel tuo percorso di apprendimento e come alcuni aspetti riflettano ciò che accade nel mondo reale. Ma sono utili per i problemi del mondo reale? La risposta generale è no. Ti spiego il perché in diversi aspetti.

Identificazione del Problema

Come data scientist o ingegnere di machine learning, il tuo primo compito è identificare il problema o capire il problema attuale che l’azienda deve risolvere. Ad esempio, potresti dover distinguere se il tipo di problema è supervisionato o non supervisionato, decidere quale modello utilizzare, ecc.

Questa è una delle decisioni più importanti che prenderai. Se non hai una comprensione generale dell’organizzazione, ti sarà più difficile individuare il problema principale.

Mondo reale: Identifica il problema o comprendi il problema attuale che l’azienda deve risolvere.

Kaggle: Viene fornita una descrizione dettagliata del problema e di ciò che si sta valutando.

Preparazione dei Dati

Nelle competizioni su Kaggle, l’organizzatore del concorso fornisce set di dati preparati insieme a una descrizione dettagliata del problema in questione. Ciò risparmia ai data scientist molto tempo che sarebbe stato impiegato per raccogliere, pulire e strutturare i dati – come accade nel mondo reale.

Alcuni ritengono che Kaggle nutrisca di dati i nuovi data scientist e ingegneri di machine learning, consentendo loro di iniziare immediatamente a lavorare. La preparazione dei dati è una fase importante del ciclo di vita della data science, e Kaggle ha dimostrato di svolgere tutto questo per gli utenti.

Nel mondo reale, l’azienda per cui lavori potrebbe fornirti o meno i dati. Se non li fornisce, dovrai raccoglierli da solo, assicurarti che siano in linea con il problema da risolvere e pulirli e strutturarli. Potrai anche cercare dati aggiuntivi rilevanti, mentre su Kaggle ti è vietato utilizzare dati esterni.

Mondo reale: Raccolta e preparazione dei dati ti aiutano a lavorare sul problema identificato.

Kaggle: Ti fornisce dati preparati che sono in linea con una descrizione dettagliata del problema in questione.

Feature Engineering

Dopo aver ottenuto i tuoi dati e averli puliti e preparati, il tuo compito successivo come data scientist è diventare un ingegnere delle caratteristiche. L’ingegneria delle feature deriva dal problema che stai affrontando, da ciò che stai cercando di risolvere e da come intendi farlo.

Con questo, avrai una migliore comprensione di quanto tempo dedicherai all’ingegneria delle caratteristiche e se gli altri elementi del ciclo di vita della scienza dei dati sono più importanti.

Tuttavia, nelle competizioni Kaggle, l’ingegneria delle caratteristiche gioca un ruolo importante nel posizionamento nella classifica. Sì, l’ingegneria delle caratteristiche fa parte del ciclo di vita della scienza dei dati, ma i progetti di scienza dei dati del mondo reale si concentrano più sul fattore che guida il tuo modello, piuttosto che su piccoli guadagni incrementali.

Mondo reale: Il livello di ingegneria delle caratteristiche dipende dal problema in questione e da dove è focalizzata la tua attenzione.

Kaggle: Il livello di ingegneria delle caratteristiche viene utilizzato come incentivo per salire più in alto nella classifica.

 

Modellazione

 

Scegliere il modello corretto si basa su vari fattori, come l’esplicabilità del modello, i dati che stai utilizzando, le prestazioni del modello e portare il modello in produzione. Tutto ciò è in linea con il problema che hai tra le mani, poiché spetta a te determinare quale si adatta alle esigenze della tua azienda.

Mentre su Kaggle, gli utenti sono più interessati a quale modello offre le migliori prestazioni e elabora i dati con cui stanno lavorando. I fattori presi in considerazione nella scelta del loro modello sono molto meno realistici rispetto a quelli affrontati nel mondo reale.

Mondo reale: Scegliere il modello corretto in base a una serie di fattori legati al problema aziendale.

Kaggle: Scegliere il modello corretto in base alle prestazioni poiché si partecipa a una competizione.

 

Validazione

 

La validazione è un aspetto che sia Kaggle che il mondo reale mostrano somiglianza. Validare le prestazioni del tuo modello è un aspetto importante perché ti permette di esplorare dove puoi apportare modifiche per migliorare il tuo modello e ti mostra se il tuo modello ha valore nel mondo reale.

Le competizioni Kaggle mostrano come costruire un modello robusto sia utile nel mondo reale.

 

Modello in Produzione

 

Nel mondo reale, la maggior parte dei modelli che stai costruendo è progettata per passare in produzione. Questo perché c’è uno scopo dietro il tuo modello, stavi cercando di risolvere un problema del mondo reale. Il tuo modello troverà in un modo o nell’altro il suo modo di essere integrato nel processo aziendale per aiutare nelle future decisioni.

D’altra parte, quando partecipi a una competizione Kaggle, la tua preoccupazione principale è il tuo posizionamento nella classifica e non come il tuo modello verrà implementato e utilizzato in futuro.

Mondo reale: Ogni modello che costruisci ha uno scopo e vuoi spostarlo in produzione per risolvere il problema aziendale.

Kaggle: L’obiettivo generale di costruire il tuo modello era vedere dove ti posizionavi nella classifica e cosa puoi fare meglio la prossima volta rispetto ai tuoi concorrenti.

 

Curva di Apprendimento

 

Kaggle ti insegna molto. Attraverso le competizioni Kaggle e il lavoro su diverse attività e set di dati, puoi imparare molto. Personalmente, non credo che ci sia alcun danno nel imparare di più e affrontare sfide. Impari semplicemente come superare queste sfide riflettendo sulle tue debolezze e su come trasformarle in punti di forza.

Preferiresti trovarsi nella posizione di sapere di più prima di ottenere il lavoro dei tuoi sogni o non sapere? La risposta è piuttosto semplice e dipende da ciò che desideri dalla tua carriera.

Le competizioni Kaggle ti mostrano le prestazioni del tuo modello, il che è positivo per il tuo percorso di apprendimento. Come indicato nello screenshot sopra, potresti supporre che le prestazioni del tuo modello siano davvero buone, solo per renderti conto che non erano così buone come quelle degli altri nella stessa competizione.

Avere detto ciò, le competizioni Kaggle ti spingono nel tuo percorso di apprendimento, permettendoti di competere con persone provenienti da tutto il mondo e di acquisire nuove competenze come individuo.

 

Scadenze

 

Nel mondo reale, quando lavori su progetti ti vengono date scadenze. Le scadenze ti aiutano a tenere sotto controllo i tuoi compiti, che sono in linea con il piano aziendale dell’organizzazione. Ogni scadenza è l’inizio di un nuovo progetto.

Le competizioni Kaggle hanno scadenze che riflettono ciò che potrebbero essere le tue attività quotidiane. Questo è un ottimo modo per comprendere come viene utilizzato il tuo tempo, oltre a superare la procrastinazione.

Riassumendo

In base ai punti che abbiamo affrontato, l’utilità delle competizioni Kaggle dipende interamente dalle persone. Sì, ogni aspetto di una competizione Kaggle potrebbe non rispecchiare ciò che accade nel mondo reale, ma molti di noi possono dire la stessa cosa riguardo alcune cose che abbiamo imparato a scuola.

È sufficiente per dire che non è utile per i problemi del mondo reale?

Le competizioni Kaggle ti offrono molta esperienza di apprendimento e ti consentono di esplorare competenze che potresti non aver mai preso in considerazione prima. Ci sono molte esperienze che possono derivare dalle competizioni Kaggle e che possono essere utilizzate successivamente nella tua carriera.

****[Nisha Arya](https://www.linkedin.com/in/nisha-arya-ahmed/)**** è una Data Scientist e scrittrice tecnica freelance. È particolarmente interessata a fornire consigli di carriera o tutorial sulla Data Science e conoscenze teoriche sulla Data Science. Desidera anche esplorare i diversi modi in cui l’intelligenza artificiale può beneficiare la longevità della vita umana. Una studentessa attenta, che cerca di ampliare le sue conoscenze tecniche e le sue capacità di scrittura, aiutando nel contempo a guidare gli altri.