La guida al campo dei dati sintetici

Guida ai dati sintetici

Una guida alle varie specie di dati falsi: Parte 2

Se vuoi lavorare con i dati, quali sono le tue opzioni? Ecco una risposta il più grossolana possibile: puoi ottenere dati reali o puoi ottenere dati falsi.

Nel mio articolo precedente, abbiamo fatto amicizia con il concetto di dati sintetici e abbiamo discusso il processo di pensiero attorno alla loro creazione. Abbiamo confrontato i dati reali, i dati rumorosi e i dati artigianali. Approfondiamo le specie di dati sintetici che sono più eleganti di chiedere a una persona di scegliere un numero, qualunque numero…

(Nota: i link in questo post ti indirizzano a spiegazioni dello stesso autore.)

Dati duplicati

Forse hai misurato 10.000 altezze umane reali, ma vuoi avere 20.000 punti dati. Un approccio che puoi adottare è supporre che il tuo dataset esistente rappresenti già abbastanza bene la tua popolazione. (Le supposizioni sono sempre pericolose, procedi con cautela.) Quindi potresti semplicemente duplicare il dataset o duplicare una parte di esso usando il vecchio copia-incolla. Ta-dà! Più dati! Ma sono dati buoni e utili? Questo dipende sempre da ciò di cui hai bisogno. Per la maggior parte delle situazioni, la risposta sarebbe no. Ma hey, ci sono ragioni per cui sei nato con una testa, e quelle ragioni sono masticare e applicare il tuo miglior giudizio.

Dati campionati

Parlando di duplicare solo una parte dei tuoi dati, c’è un modo per introdurre un po’ di casualità per aiutarti a capire quale parte scegliere. Puoi utilizzare un generatore di numeri casuali per aiutarti a scegliere da quale altezza prendere dalla tua lista esistente di altezze. Potresti fare ciò “senza sostituzione”, il che significa che fai al massimo una copia di ciascuna altezza esistente, ma…

Dati bootstrap

Vedrai più spesso le persone fare ciò “con sostituzione”, il che significa che ogni volta che scegli casualmente un’altezza da copiare, dimentichi immediatamente di averlo fatto in modo che la stessa altezza possa fare il suo ingresso nel tuo dataset come seconda, terza, quarta, ecc. copia. Forse, se c’è abbastanza interesse nei commenti, spiegherò perché questa è una tecnica potente ed efficace (sì, sembra magia nera all’inizio, pensavo così…