Perché il testing delle ipotesi dovrebbe prendere spunto da Amleto

Testing delle ipotesi is inspired by Hamlet

Simulare o non simulare, questo è il dilemma

Se sei uno scienziato o un professionista dei dati, è probabile che il tuo processo di test delle ipotesi manchi di un passaggio cruciale che è tragicamente – o tragicomicamente? – omesso dal tuo corso di studi tipico. Non temere, in questo post del blog ti mostrerò il pezzo mancante e perché troverai la soluzione nel libro degli attori.

Amleto nello stile di Kehinde Wiley, generato dall'autore con Midjourney.

(Nota: i link in questo post ti portano a spiegazioni dello stesso autore.)

Atto Uno, Scena Uno

La scena si apre con te che trionfalmente segni il budget per raccogliere alcuni dati effettivi. Forse sarà tutto digitale; stai per dire al tuo team di ingegneria quali variabili iniziare a registrare o quali esperimenti online eseguire. O forse stai uscendo nel mondo fisico per impostare alcuni sensori, preparare alcune pipette o qualunque altra cosa sia necessaria per mettere le mani sui dati. (Curioso del lato pratico del prelievo di misurazioni dal mondo reale? Dai un’occhiata al mio articolo sul campionamento degli alberi.)

Non così in fretta! Cosa succede se non hai idea di cosa stai facendo? È terribilmente imbarazzante, per non parlare di un enorme spreco di tempo prezioso del tuo team, sbagliare la parte del mondo reale del processo di raccolta dati. Anche se è tutto digitale, preferiresti non dover tornare indietro dal tuo team di ingegneria a testa bassa e chiedere un rifacimento.

Ma come puoi essere sicuro di aver registrato le cose giuste nel modo giusto? C’è un trucco per questo? Fortunatamente, sì! E il trucco è così ovvio a posteriori… il che forse spiega perché i tuoi professori hanno dimenticato di insegnartelo.

Il trucco è di prendere una pagina dal libro degli attori teatrali!

Palcoscenico teatrale con bicchieri di vino nello stile di Kehinde Wiley, generato dall'autore con Midjourney.

Cosa fanno gli attori prima della prima se sono nervosi per dare una brutta performance? (No, non bere.)

Fanno una prova generale!

Bene, anche tu puoi fare una prova generale. Prima di raccogliere qualsiasi dato, fai una prova generale con tutto tranne che il pubblico. Eh, pubblico? Voglio dire, tutto tranne che i dati del mondo reale.

La prova generale

Nella scienza dei dati, una prova generale implica la creazione di un dataset falso ma plausibile. Chiamiamo questo simulazione.

Se non sei familiare con il concetto di simulazione di dati falsi ma plausibili, vai su questo post del blog dove cambio modalità per mostrare anziché dire. Troverai un esempio basato su codice e su foglio di calcolo lì. Continua a leggere qui una volta che hai formato un’immagine mentale di come appare la simulazione.

Quando simuli i dati della tua prova generale, assicurati di cucinare una storia chiara su cui hai controllo. Prova a impostare i parametri di simulazione per costruire un piccolo mondo giocattolo in cui vuoi prendere una decisione, quindi genera quei dati e prova ad analizzarli. Assicurati di poter recuperare la decisione giusta alla fine della tua analisi. Se non puoi, è un segnale davvero negativo per il tuo piano statistico!

Se sai qual è la conclusione giusta (cosa che fai sempre in un mondo le cui regole hai creato) e il tuo approccio non te la restituisce, potresti usare un metodo sbagliato o potresti non avere abbastanza dati. È sempre meglio ottenere questi segnali d’allarme in anticipo.

Forse ancora più importante, spesso scopri che avresti voluto impostare i tuoi dati in modo diverso fin dal principio. Mentre analizzi i tuoi dati falsi, ti ritrovi a pensare: “Se solo avessi questa colonna aggiuntiva, sarebbe tutto migliore…”

Bene, adesso è il momento di scoprirlo e di evitare GIGO, non dopo aver raccolto i dati reali. Troppo costoso e troppo tempo-consumante!

Non sprecare la tua occasione

Anche se il tuo dataset è perfetto, il metodo proposto potrebbe non essere la scelta migliore per esso. Purtroppo, a meno che tu non stia facendo qualcosa di abbastanza sofisticato, ricorda che puoi utilizzare un vero dataset di test solo una volta. Quindi hai solo una possibilità, non puoi provare diversi metodi come faresti se stessi addestrando un modello di machine learning. L’ inferenza statistica è un’ attività epistemologica brutale che non si preoccupa minimamente dei tuoi sentimenti: hai solo una possibilità. Non è consentito riutilizzare i dati di test.

Riutilizzare i dati di test è uno dei più grandi peccati che si possano commettere contro la decenza statistica, e il fatto che i tuoi colleghi poco istruiti commettano questo errore frequentemente non significa che sia innocuo.

Non sperimentare la selezione del metodo nel tuo prezioso dataset finale. Hai solo una possibilità, non sprecarla.

Se vuoi provare diversi metodi per vedere se si adattano bene ai tuoi dati di test, hai bisogno di un dataset separato con la stessa struttura. Se hai già molti dati, li dividerai. Se non hai ancora alcun dato, simulerai dei falsi dati per pianificare il tuo approccio metodologico. Non sperimentare la selezione del metodo nel tuo prezioso dataset finale. Hai solo una possibilità, non sprecarla.

Ecco perché utilizzare la simulazione prima di iniziare a ottenere i dati è un trucco molto utile, totalmente plagiato dal concetto di prova generale.

Simulare o non simulare, questo è il dilemma:

Se è più nobile nella mente sopportare

Le sassate e le frecce dell’outrageous fortune,

O armarsi contro un mare di guai,

E, opponendosi, por fine a essi.

Grazie per tutte le dita, Midjourney. ❤

Grazie per aver letto! E se provassi un corso di YouTube?

Se ti sei divertito qui e stai cercando un intero corso di AI applicata progettato per essere divertente sia per principianti che per esperti, ecco quello che ho creato per il tuo divertimento:

Goditi il corso su YouTube qui.

P.S. Hai mai provato a premere il pulsante di approvazione qui su Nisoo più di una volta per vedere cosa succede? ❤️

Ti è piaciuto l’autore? Connettiti con Cassie Kozyrkov

Diventiamo amici! Puoi trovarmi su Twitter, YouTube, Substack e LinkedIn. Se sei interessato ad avere una mia presentazione al tuo evento, utilizza questo modulo per contattarmi.