Cosa sono i dati sintetici?

I dati sintetici sono dati generati artificialmente.

Guida ai diversi tipi di dati falsi: Parte 1

I dati sintetici, per dirla chiaramente, sono dati falsi. Cioè, dati che non provengono effettivamente dalla popolazione di tuo interesse. (Popolazione è un termine tecnico in scienza dei dati, che spiego qui.) Sono dati che hai intenzione di trattare come se provenissero dal luogo/gruppo da cui vorresti che provenissero. (Ma non è così.)

I dati sintetici, per dirla chiaramente, sono dati falsi.

Dati artificiali, dati sintetici, dati falsi e dati simulati sono tutti sinonimi con sfumature leggermente diverse a seconda dell’epoca in cui sono stati coniati, quindi portano con sé connotazioni poetiche di epoche diverse. Oggi, i ragazzi cool preferiscono la buzzword dati sintetici, forse perché gli investitori devono essere convinti che qualcosa di nuovo sia stato inventato, piuttosto che riscoperto. E c’è qualcosa di leggermente nuovo qui, ma (a mio parere) non abbastanza da rendere irrilevanti tutte le vecchie idee.

Andiamo a fondo!

Tutti i diritti delle immagini appartengono all'autore.

(Nota: i link in questo post ti porteranno a spiegazioni dello stesso autore.)

Possibilità infinite

Se hai sofferto come me attraverso un corso di laurea avanzato in probabilità e teoria della misura (il mio terapeuta ed io stiamo ancora lavorando su di esso dopo oltre un decennio), sarai superflamente consapevole che ci sono numeri reali infiniti. Tra le altre cose, infinito significa che se cerchi di enumerarli tutti, posso arrivare come un cretino e trovarti un nuovo numero, ad esempio aggiungendo 1 al tuo numero più grande, prendendo la media dei tuoi due numeri più vicini o aggiungendo una cifra alla fine del numero con la serie più lunga di cifre dopo la virgola.

Ciò significa anche che se mi dai l’elenco di tutti i numeri mai registrati dagli esseri umani nella storia dell’umanità, posso comunque crearne uno nuovo. Boom! Il potere.

Dove sto andando con questo, oltre a fornire argomenti per il tuo prossimo dibattito birraio su se esista una vera originalità (ugh)?

Numeri sintetici

Supponiamo che tu abbia un dataset pieno di altezze umane. Tra due misurazioni qualsiasi (ad esempio 173 cm e 174 cm, l’intervallo in cui troverai la mia altezza) ci sono infiniti…