Comprensione della distribuzione ipergeometrica.

Understanding of hypergeometric distribution.

Scomponendo una delle distribuzioni meno conosciute in data science

Foto di Roth Melinda su Unsplash

Contesto

La distribuzione ipergeometrica è una distribuzione poco conosciuta sia all’interno che all’esterno della data science. Tuttavia, se non l’hai mai sentita nominare, questo post ti darà una spiegazione dettagliata di cosa sia e perché sia utile per noi data scientist.

Intuizione

La distribuzione ipergeometrica misura la probabilità di k successi in n numeri di prove (un campione), senza sostituzione, dati alcuni informazioni sulla popolazione. Questo è molto simile alla distribuzione binomiale, tranne una differenza chiave di campionamento senza sostituzione. A causa di questo, la probabilità di ogni successo (o risultato) cambia ad ogni estrazione/prova, mentre nella distribuzione binomiale la probabilità di un successo (e di un fallimento) è fissa.

Un esempio facile da capire è determinare la probabilità di estrarre tutti e 4 i re in un campione casuale di 20 carte da un mazzo di carte standard. Se estraiamo un re, la probabilità di estrarre il successivo re sarà diversa dal primo perché la composizione della popolazione è cambiata. Pertanto, la probabilità di un successo è dinamica.

Teoria

La funzione di massa di probabilità (PMF) della distribuzione ipergeometrica appare così:

Equazione in LaTeX dell'autore.

Dove:

  • n è il numero di prove
  • k è il numero di successi
  • N è la dimensione della popolazione
  • K è il numero totale di successi nella popolazione
  • X è una variabile casuale della distribuzione ipergeometrica

Il lettore interessato può trovare una derivazione della PMF qui.

La notazione a parentesi quadre si riferisce al coefficiente binomiale:

Equazione in LaTeX dell'autore.

I fattoriali indicano che stiamo trattando combinazioni e permutazioni. Puoi leggere di più a riguardo nel mio blog precedente qui:

Una guida alle combinazioni e permutazioni

Una descrizione concisa sulle combinazioni e permutazioni e le loro differenze

towardsdatascience.com

La media della distribuzione è data da:

Equazione in LaTeX dell'autore.

Esempio

Torniamo al nostro esempio precedente di estrarre 4 re in un campione casuale di 20 carte da un mazzo di carte regolare. Le informazioni che abbiamo sono:

  • N = 52 : Numero di carte nel mazzo
  • n = 20 : Numero di carte che estraiamo
  • k = 4 : Numero di re che vogliamo (successi)
  • K = 4 : Numero di re nel mazzo

Inserendo questi numeri nella funzione di massa di probabilità:

Equation in LaTeX by author.

La probabilità è quindi molto bassa. Questo ha senso poiché la probabilità di selezionare un re da un mazzo è ~0,077 (1/13), quindi con un campione ancora più piccolo, questa diminuirà ulteriormente come abbiamo dimostrato sopra.

Se vuoi giocare con alcuni numeri e scenari diversi, ho qui un link ad una calcolatrice di distribuzione ipergeometrica.

Codice & Grafici

L’esempio sopra è una dimostrazione utile dell’applicazione della distribuzione ipergeometrica. Tuttavia, possiamo avere una visione più completa tracciando la funzione di massa di probabilità come funzione del numero di successi k.

Di seguito è riportato un grafico, in Python, per il nostro esempio precedente in cui variamo il numero di re, k, che desideriamo:

GitHub Gist dell’autore.

Plot generated by author in Python.

Come possiamo vedere, la probabilità di ottenere 5 re dal campione di 20 carte è 0, poiché non ci sono cinque re nel mazzo! Il numero più probabile di re che otterremo è 1.

Consideriamo ora un nuovo problema. Qual è la distribuzione ipergeometrica del numero di carte con seme di picche in un campione casuale di 30 carte?

GitHub Gist dell’autore.

Plot generated by author in Python.

Il numero più probabile di picche che otterremo nel campione di 30 carte è 8. È anche praticamente impossibile per noi non ottenere alcuna picche nel campione come mostrato dal grafico.

Applicazioni

La distribuzione ipergeometrica tocca numerosi campi tra cui:

  • Probabilità di vincere una mano a poker
  • Analisi delle popolazioni di voto
  • Controllo di qualità nella produzione
  • Variazioni genetiche all’interno di una popolazione

Quindi, la distribuzione ipergeometrica è qualcosa che probabilmente incontrerai nella tua carriera di scienziato dei dati e quindi vale la pena conoscerla.

Conclusione & Ulteriori Riflessioni

In questo articolo abbiamo discusso della distribuzione ipergeometrica. Questa è molto simile alla distribuzione binomiale ma la probabilità di successo cambia poiché stiamo prendendo un campione senza sostituzione. Questa distribuzione è molto potente all’interno della scienza dei dati e ha applicazioni nel controllo di qualità e nell’industria del gioco d’azzardo. Quindi, vale la pena conoscerla come scienziato dei dati.

Il codice completo è disponibile sul mio GitHub qui:

Nisoo-Articles/Statistics/Distributions/hypergeometric.py at main · egorhowell/Medium-Articles

Codice che uso nei miei articoli del blog Nisoo. Contribuisci allo sviluppo di egorhowell/Medium-Articles creando un account su…

github.com

Riferimenti

  • Maggiori informazioni sulla distribuzione ipergeometrica: https://brilliant.org/wiki/hypergeometric-distribution/
  • Un approccio teorico: https://dlsun.github.io/probability/hypergeometric.html

Contattami!

  • Per leggere storie illimitate su Nisoo assicurati di registrarti qui! 💜
  • Per ricevere un aggiornamento quando pubblico, iscriviti alle notifiche via email qui! 😀
  • LinkedIn 👔
  • Twitter 🖊
  • GitHub 🖥
  • Kaggle 🏅

(Tutte le emoji progettate da OpenMoji – il progetto di emoji e icona open-source. Licenza: CC BY-SA 4.0)