Comprensione della distribuzione ipergeometrica.
Understanding of hypergeometric distribution.
Scomponendo una delle distribuzioni meno conosciute in data science
Contesto
La distribuzione ipergeometrica è una distribuzione poco conosciuta sia all’interno che all’esterno della data science. Tuttavia, se non l’hai mai sentita nominare, questo post ti darà una spiegazione dettagliata di cosa sia e perché sia utile per noi data scientist.
Intuizione
La distribuzione ipergeometrica misura la probabilità di k successi in n numeri di prove (un campione), senza sostituzione, dati alcuni informazioni sulla popolazione. Questo è molto simile alla distribuzione binomiale, tranne una differenza chiave di campionamento senza sostituzione. A causa di questo, la probabilità di ogni successo (o risultato) cambia ad ogni estrazione/prova, mentre nella distribuzione binomiale la probabilità di un successo (e di un fallimento) è fissa.
Un esempio facile da capire è determinare la probabilità di estrarre tutti e 4 i re in un campione casuale di 20 carte da un mazzo di carte standard. Se estraiamo un re, la probabilità di estrarre il successivo re sarà diversa dal primo perché la composizione della popolazione è cambiata. Pertanto, la probabilità di un successo è dinamica.
Teoria
La funzione di massa di probabilità (PMF) della distribuzione ipergeometrica appare così:
- Sviluppo di cruscotti interattivi e informativi con Spark e Plotly Dash
- È un Buon Percorso di Carriera Essere un Analista dei Dati?
- Ingegneria moderna dei dati con MAGE potenziare l’elaborazione efficiente dei dati

Dove:
- n è il numero di prove
- k è il numero di successi
- N è la dimensione della popolazione
- K è il numero totale di successi nella popolazione
- X è una variabile casuale della distribuzione ipergeometrica
Il lettore interessato può trovare una derivazione della PMF qui.
La notazione a parentesi quadre si riferisce al coefficiente binomiale:

I fattoriali indicano che stiamo trattando combinazioni e permutazioni. Puoi leggere di più a riguardo nel mio blog precedente qui:
Una guida alle combinazioni e permutazioni
Una descrizione concisa sulle combinazioni e permutazioni e le loro differenze
towardsdatascience.com
La media della distribuzione è data da:

Esempio
Torniamo al nostro esempio precedente di estrarre 4 re in un campione casuale di 20 carte da un mazzo di carte regolare. Le informazioni che abbiamo sono:
- N = 52 : Numero di carte nel mazzo
- n = 20 : Numero di carte che estraiamo
- k = 4 : Numero di re che vogliamo (successi)
- K = 4 : Numero di re nel mazzo
Inserendo questi numeri nella funzione di massa di probabilità:

La probabilità è quindi molto bassa. Questo ha senso poiché la probabilità di selezionare un re da un mazzo è ~0,077 (1/13), quindi con un campione ancora più piccolo, questa diminuirà ulteriormente come abbiamo dimostrato sopra.
Se vuoi giocare con alcuni numeri e scenari diversi, ho qui un link ad una calcolatrice di distribuzione ipergeometrica.
Codice & Grafici
L’esempio sopra è una dimostrazione utile dell’applicazione della distribuzione ipergeometrica. Tuttavia, possiamo avere una visione più completa tracciando la funzione di massa di probabilità come funzione del numero di successi k.
Di seguito è riportato un grafico, in Python, per il nostro esempio precedente in cui variamo il numero di re, k, che desideriamo:
GitHub Gist dell’autore.

Come possiamo vedere, la probabilità di ottenere 5 re dal campione di 20 carte è 0, poiché non ci sono cinque re nel mazzo! Il numero più probabile di re che otterremo è 1.
Consideriamo ora un nuovo problema. Qual è la distribuzione ipergeometrica del numero di carte con seme di picche in un campione casuale di 30 carte?
GitHub Gist dell’autore.

Il numero più probabile di picche che otterremo nel campione di 30 carte è 8. È anche praticamente impossibile per noi non ottenere alcuna picche nel campione come mostrato dal grafico.
Applicazioni
La distribuzione ipergeometrica tocca numerosi campi tra cui:
- Probabilità di vincere una mano a poker
- Analisi delle popolazioni di voto
- Controllo di qualità nella produzione
- Variazioni genetiche all’interno di una popolazione
Quindi, la distribuzione ipergeometrica è qualcosa che probabilmente incontrerai nella tua carriera di scienziato dei dati e quindi vale la pena conoscerla.
Conclusione & Ulteriori Riflessioni
In questo articolo abbiamo discusso della distribuzione ipergeometrica. Questa è molto simile alla distribuzione binomiale ma la probabilità di successo cambia poiché stiamo prendendo un campione senza sostituzione. Questa distribuzione è molto potente all’interno della scienza dei dati e ha applicazioni nel controllo di qualità e nell’industria del gioco d’azzardo. Quindi, vale la pena conoscerla come scienziato dei dati.
Il codice completo è disponibile sul mio GitHub qui:
Nisoo-Articles/Statistics/Distributions/hypergeometric.py at main · egorhowell/Medium-Articles
Codice che uso nei miei articoli del blog Nisoo. Contribuisci allo sviluppo di egorhowell/Medium-Articles creando un account su…
github.com
Riferimenti
- Maggiori informazioni sulla distribuzione ipergeometrica: https://brilliant.org/wiki/hypergeometric-distribution/
- Un approccio teorico: https://dlsun.github.io/probability/hypergeometric.html
Contattami!
- Per leggere storie illimitate su Nisoo assicurati di registrarti qui! 💜
- Per ricevere un aggiornamento quando pubblico, iscriviti alle notifiche via email qui! 😀
- LinkedIn 👔
- Twitter 🖊
- GitHub 🖥
- Kaggle 🏅
(Tutte le emoji progettate da OpenMoji – il progetto di emoji e icona open-source. Licenza: CC BY-SA 4.0)