Fondamenti di Statistica per Data Scientist e Analisti
Fundamentals of Statistics for Data Scientists and Analysts
Come ha affermato Karl Pearson, un matematico britannico, la statistica è la grammatica della scienza e questo vale soprattutto per le scienze informatiche e dell’informazione, le scienze fisiche e le scienze biologiche. Quando ti avvicini al tuo percorso in Data Science o Data Analytics, conoscere la statistica ti aiuterà a sfruttare al meglio le informazioni dei dati.
“La statistica è la grammatica della scienza.” Karl Pearson
L’importanza della statistica nella data science e nell’analisi dei dati non può essere sottovalutata. La statistica fornisce strumenti e metodi per trovare strutture e per ottenere approfondite informazioni sui dati. Sia la statistica che la matematica amano i fatti e odiano le supposizioni. Conoscere i fondamenti di queste due materie importanti ti permetterà di pensare in modo critico e di essere creativo nell’uso dei dati per risolvere problemi aziendali e prendere decisioni basate sui dati. In questo articolo, tratterò i seguenti argomenti statistici per la data science e l’analisi dei dati:
- La casella di ricerca di Google ha cambiato il significato delle informazioni
- 6 Diverse Modi in cui l’IA potrebbe Contribuire a Migliorare l’Esperienza Utente
- Il modello di intelligenza artificiale può aiutare a determinare da dove è originato il cancro di un paziente
- Variabili casuali
- Funzioni di distribuzione di probabilità (PDF)
- Media, varianza, deviazione standard
- Covarianza e correlazione
- Teorema di Bayes
- Regressione lineare e minimi quadrati ordinari (OLS)
- Teorema di Gauss-Markov
- Proprietà dei parametri (bias, consistenza, efficienza)
- Intervalli di confidenza
- Test di ipotesi
- Significatività statistica
- Errori di tipo I e di tipo II
- Test statistici (test t di Student, test F)
- Valore p e le sue limitazioni
- Statistica inferenziale
- Teorema del limite centrale e legge dei grandi numeri
- Tecniche di riduzione della dimensionalità (PCA, FA)
Se non hai alcuna conoscenza statistica precedente e vuoi identificare e imparare i concetti statistici essenziali da zero, per prepararti ai colloqui di lavoro, allora questo articolo fa al caso tuo. Questo articolo sarà anche una buona lettura per chiunque voglia rinfrescare le proprie conoscenze statistiche.
Prima di iniziare, benvenuto/a in LunarTech!
Benvenuto/a in LunarTech.ai, dove comprendiamo il potere delle strategie di ricerca del lavoro nel dinamico campo della Data Science e dell’IA. Approfondiamo le tattiche e le strategie necessarie per navigare il processo di ricerca del lavoro competitivo. Che si tratti di definire i tuoi obiettivi di carriera, personalizzare i materiali di candidatura o sfruttare le bacheche di lavoro e la rete di contatti, le nostre intuizioni forniscono la guida necessaria per ottenere il lavoro dei tuoi sogni.
Ti stai preparando per i colloqui di data science? Non temere! Illuminiamo le complessità del processo di intervista, fornendoti le conoscenze e la preparazione necessarie per aumentare le tue possibilità di successo. Dalle prime telefonate agli esami tecnici, alle interviste tecniche e comportamentali, non lasciamo nulla al caso.
In LunarTech.ai, andiamo oltre la teoria. Siamo il tuo trampolino di lancio per un successo senza precedenti nel campo della tecnologia e della data science. Il nostro completo percorso di apprendimento è progettato su misura per integrarsi perfettamente nel tuo stile di vita, consentendoti di trovare il giusto equilibrio tra impegni personali e professionali mentre acquisisci competenze all’avanguardia. Con il nostro impegno per la tua crescita professionale, inclusa l’assistenza nella collocazione lavorativa, la creazione di un curriculum esperto e la preparazione per i colloqui, emergerai come una potenza pronta per l’industria.
Unisciti oggi alla nostra comunità di individui ambiziosi e intraprendi insieme a noi questo emozionante percorso nella data science. Con LunarTech.ai, il futuro è luminoso e tu hai le chiavi per sbloccare opportunità illimitate.
Variabili Casuali
Il concetto di variabili casuali è alla base di molti concetti statistici. Potrebbe essere difficile digerire la sua definizione matematica formale, ma in parole semplici, una variabile casuale è un modo per associare gli esiti di processi casuali, come ad esempio lanciare una moneta o tirare un dado, a numeri. Ad esempio, possiamo definire il processo casuale di lanciare una moneta tramite la variabile casuale X che assume il valore 1 se l’esito è testa e 0 se l’esito è croce.
In questo esempio, abbiamo un processo casuale di lanciare una moneta in cui questo esperimento può produrre due possibili esiti: {0,1}. Questo insieme di tutti gli esiti possibili viene chiamato spazio campionario dell’esperimento. Ogni volta che il processo casuale viene ripetuto, viene definito un evento. In questo esempio, lanciare una moneta e ottenere croce come esito è un evento. La probabilità di un evento è la possibilità che una variabile casuale assuma un valore specifico x, che può essere descritta da P(x). Nell’esempio del lancio di una moneta, la probabilità di ottenere testa o croce è la stessa, cioè 0,5 o 50%. Quindi abbiamo la seguente impostazione:
dove la probabilità di un evento, in questo esempio, può assumere solo valori nell’intervallo [0,1].
Non si può sottovalutare l’importanza delle statistiche nella scienza dei dati e nell’analisi dei dati. Le statistiche forniscono strumenti e metodi per trovare la struttura e per ottenere una comprensione più approfondita dei dati.
Media, Varianza, Deviazione Standard
Per comprendere i concetti di media, varianza e molti altri argomenti statistici, è importante apprendere i concetti di popolazione e campionamento. La popolazione è l’insieme di tutte le osservazioni (individui, oggetti, eventi o procedure) ed è di solito molto ampia e diversificata, mentre un campionamento è un sottoinsieme di osservazioni della popolazione che idealmente rappresenta fedelmente la popolazione.
Dato che sperimentare con un’intera popolazione è impossibile o troppo costoso, i ricercatori o gli analisti utilizzano campioni anziché l’intera popolazione nei loro esperimenti o prove. Per garantire che i risultati sperimentali siano affidabili e validi per l’intera popolazione, il campione deve essere una rappresentazione fedele della popolazione. In altre parole, il campione deve essere imparziale. A tal fine, è possibile utilizzare tecniche di campionamento statistiche come campionamento casuale, campionamento sistematico, campionamento clusterizzato, campionamento ponderato e campionamento stratificato.
Media
La media, anche conosciuta come valore medio, è un valore centrale di un insieme finito di numeri. Supponiamo che una variabile casuale X nei dati abbia i seguenti valori:
dove N è il numero di osservazioni o punti dati nel campione o semplicemente la frequenza dei dati. Allora la media del campione definita da ?, che viene spesso utilizzata per approssimare la media della popolazione, può essere espressa come segue:
La media è anche definita come aspettazione, spesso indicata con E(), o variabile casuale con una barra sopra. Ad esempio, l’aspettazione delle variabili casuali X e Y, ossia E(X) e E(Y), rispettivamente, può essere espressa come segue:
import numpy as np
import math
x = np.array([1,3,5,6])
mean_x = np.mean(x)
# nel caso in cui i dati contengano valori NaN
x_nan = np.array([1,3,5,6, math.nan])
mean_x_nan = np.nanmean(x_nan)
Varianza
La varianza misura quanto i punti dati si discostano dal valore medio, ed è uguale alla somma dei quadrati delle differenze tra i valori dei dati e la media. Inoltre, la varianza della popolazione può essere espressa come segue:
x = np.array([1,3,5,6])
variance_x = np.var(x)
# qui è necessario specificare i gradi di libertà (df), ovvero il numero massimo di punti dati logicamente indipendenti che hanno la libertà di variare
x_nan = np.array([1,3,5,6, math.nan])
mean_x_nan = np.nanvar(x_nan, ddof = 1)
Per ottenere aspettazioni e varianze di diverse popolari funzioni di distribuzione di probabilità, consulta questo repository su Github.
Deviazione Standard
La deviazione standard è semplicemente la radice quadrata della varianza e misura l’estensione con cui i dati variano rispetto alla loro media. La deviazione standard definita da sigma può essere espressa come segue:
La deviazione standard è spesso preferita rispetto alla varianza perché ha la stessa unità dei punti dati, il che significa che è più facile interpretarla.
x = np.array([1,3,5,6])
variance_x = np.std(x)
x_nan = np.array([1,3,5,6, math.nan])
mean_x_nan = np.nanstd(x_nan, ddof = 1)
Covarianza
La covarianza è una misura della variabilità congiunta di due variabili casuali e descrive la relazione tra queste due variabili. È definita come il valore atteso del prodotto delle deviazioni delle due variabili casuali dalle loro medie. La covarianza tra due variabili casuali X e Z può essere descritta dalla seguente espressione, in cui E(X) e E(Z) rappresentano le medie di X e Z, rispettivamente.
La covarianza può assumere valori negativi o positivi e anche il valore 0. Un valore positivo della covarianza indica che due variabili casuali tendono a variare nella stessa direzione, mentre un valore negativo suggerisce che queste variabili variano in direzioni opposte. Infine, il valore 0 significa che non variano insieme.
x = np.array([1,3,5,6])
y = np.array([-2,-4,-5,-6])
# questo restituirà la matrice di covarianza di x,y contenente varianza_x, varianza_y sugli elementi diagonali e covarianza di x,y
cov_xy = np.cov(x,y)
Correlazione
La correlazione è anche una misura per la relazione e misura sia la forza che la direzione della relazione lineare tra due variabili. Se viene rilevata una correlazione, significa che c’è una relazione o un modello tra i valori di due variabili target. La correlazione tra due variabili casuali X e Z è uguale alla covarianza tra queste due variabili divisa per il prodotto delle deviazioni standard di queste variabili, che può essere descritta dalla seguente espressione.
I valori dei coefficienti di correlazione variano tra -1 e 1. Tieni presente che la correlazione di una variabile con se stessa è sempre 1, cioè Cor(X, X) = 1. Un’altra cosa da tenere presente quando si interpreta la correlazione è di non confonderla con la causalità, dato che una correlazione non è causazione. Anche se c’è una correlazione tra due variabili, non si può concludere che una variabile causa una variazione nell’altra. Questa relazione potrebbe essere casuale, o un terzo fattore potrebbe causare la variazione di entrambe le variabili.
x = np.array([1,3,5,6])
y = np.array([-2,-4,-5,-6])
corr = np.corrcoef(x,y)
Funzioni di Distribuzione di Probabilità
Una funzione che descrive tutti i possibili valori, lo spazio campionario e le probabilità corrispondenti che una variabile casuale può assumere entro un determinato intervallo, limitato tra il valore minimo e massimo possibile, viene chiamata una funzione di distribuzione di probabilità (pdf) o densità di probabilità. Ogni pdf deve soddisfare i seguenti due criteri:
dove il primo criterio stabilisce che tutte le probabilità devono essere numeri nell’intervallo [0,1] e il secondo criterio stabilisce che la somma di tutte le possibili probabilità deve essere uguale a 1.
Le funzioni di probabilità sono solitamente classificate in due categorie: discrete e continue. La funzione di distribuzione discreta descrive il processo casuale con uno spazio campione numerabile, come nel caso di un esempio di lancio di una moneta che ha solo due possibili risultati. La funzione di distribuzione continua descrive il processo casuale con uno spazio campione continuo. Esempi di funzioni di distribuzione discrete sono Bernoulli, Binomiale, Poisson, Uniforme Discreta. Esempi di funzioni di distribuzione continue sono Normale, Uniforme Continua, Cauchy.
Distribuzione Binomiale
La distribuzione binomiale è la distribuzione di probabilità discreta del numero di successi in una sequenza di n esperimenti indipendenti, ognuno con un esito di tipo booleano: successo (con probabilità p) o fallimento (con probabilità q = 1 – p). Supponiamo che una variabile casuale X segua una distribuzione binomiale, allora la probabilità di osservare k successi in n prove indipendenti può essere espressa dalla seguente funzione di densità di probabilità:
La distribuzione binomiale è utile quando si analizzano i risultati di esperimenti ripetuti indipendenti, specialmente se si è interessati alla probabilità di raggiungere una determinata soglia data una specifica percentuale di errore.
Media e Varianza della Distribuzione Binomiale
La figura sottostante visualizza un esempio di distribuzione binomiale in cui il numero di prove indipendenti è uguale a 8 e la probabilità di successo in ogni prova è pari al 16%.
Fonte dell’immagine: L’autore
# Generazione casuale di 1000 campioni binomiali indipendenti
import numpy as np
n = 8
p = 0.16
N = 1000
X = np.random.binomial(n,p,N)
# Istogramma della distribuzione binomiale
import matplotlib.pyplot as plt
counts, bins, ignored = plt.hist(X, 20, density = True, rwidth = 0.7, color = 'purple')
plt.title("Distribuzione binomiale con p = 0.16 n = 8")
plt.xlabel("Numero di successi")
plt.ylabel("Probabilità")
plt.show()
Distribuzione di Poisson
La distribuzione di Poisson è la distribuzione di probabilità discreta del numero di eventi che si verificano in un determinato periodo di tempo, dato il numero medio di volte in cui l’evento si verifica in quel periodo di tempo. Supponiamo che una variabile casuale X segua una distribuzione di Poisson, allora la probabilità di osservare k eventi in un periodo di tempo può essere espressa dalla seguente funzione di probabilità:
dove e è il numero di Eulero e λ, il parametro tasso di arrivo, è il valore atteso di X. La funzione di distribuzione di Poisson è molto popolare per il suo utilizzo nella modellazione di eventi contabili che si verificano entro un determinato intervallo di tempo.
Media e Varianza della Distribuzione di Poisson
Ad esempio, la distribuzione di Poisson può essere utilizzata per modellare il numero di clienti che arrivano nel negozio tra le 19 e le 22, o il numero di pazienti che arrivano in un pronto soccorso tra le 11 e le 12. La figura sottostante visualizza un esempio di distribuzione di Poisson in cui si conta il numero di visitatori del sito web con un tasso di arrivo, lambda, supposto pari a 7 minuti.
Fonte dell’immagine: L’autore
# Generazione casuale di 1000 campioni di Poisson indipendenti
import numpy as np
lambda_ = 7
N = 1000
X = np.random.poisson(lambda_,N)
# Istogramma della distribuzione di Poisson
import matplotlib.pyplot as plt
counts, bins, ignored = plt.hist(X, 50, density = True, color = 'purple')
plt.title("Generazione casuale dalla distribuzione di Poisson con lambda = 7")
plt.xlabel("Numero di visitatori")
plt.ylabel("Probabilità")
plt.show()
Distribuzione Normale
La distribuzione di probabilità normale è la distribuzione di probabilità continua per una variabile casuale a valori reali. La distribuzione normale, chiamata anche distribuzione gaussiana, è probabilmente una delle funzioni di distribuzione più popolari comunemente utilizzate nelle scienze sociali e naturali a fini di modellazione, ad esempio viene utilizzata per modellare l’altezza delle persone o i punteggi dei test. Supponiamo che una variabile casuale X segua una distribuzione normale, allora la sua funzione di densità di probabilità può essere espressa come segue.
dove il parametro ? (mu) è la media della distribuzione anche chiamato parametro di posizione, il parametro ? (sigma) è la deviazione standard della distribuzione anche chiamato parametro di scala. Il numero ? (pi) è una costante matematica approssimativamente uguale a 3,14.
Media e Varianza della Distribuzione Normale
La figura sottostante visualizza un esempio di distribuzione normale con media 0 (? = 0) e deviazione standard 1 (? = 1), che viene chiamata distribuzione normale standard che è simmetrica.
Fonte dell’immagine: L’autore
# Generazione casuale di 1000 campioni di distribuzione normale indipendenti
import numpy as np
mu = 0
sigma = 1
N = 1000
X = np.random.normal(mu,sigma,N)
# Distribuzione della popolazione
from scipy.stats import norm
x_values = np.arange(-5,5,0.01)
y_values = norm.pdf(x_values)
# Istogramma del campione con distribuzione della popolazione
import matplotlib.pyplot as plt
counts, bins, ignored = plt.hist(X, 30, density = True,color = 'purple',label = 'Distribuzione campionaria')
plt.plot(x_values,y_values, color = 'y',linewidth = 2.5,label = 'Distribuzione della popolazione')
plt.title("Generazione casuale di 1000 osservazioni dalla distribuzione normale mu = 0 sigma = 1")
plt.ylabel("Probabilità")
plt.legend()
plt.show()
Teorema di Bayes
Il Teorema di Bayes, spesso chiamato Legge di Bayes, è probabilmente la regola più potente della probabilità e delle statistiche, chiamata così in onore del famoso statistico e filosofo inglese, Thomas Bayes.
Fonte dell’immagine: Wikipedia
Il teorema di Bayes è una potente legge di probabilità che porta il concetto di soggettività nel mondo delle Statistiche e della Matematica, dove tutto è basato sui fatti. Descrive la probabilità di un evento, basandosi sulle informazioni precedenti sulle condizioni che potrebbero essere correlate a quell’evento. Ad esempio, se si sa che il rischio di contrarre il Coronavirus o il Covid-19 aumenta con l’età, allora il Teorema di Bayes consente di determinare in modo più accurato il rischio per un individuo di una certa età condizionandolo sull’età anziché assumere semplicemente che quest’individuo sia comune a tutta la popolazione.
Il concetto di probabilità condizionata, che svolge un ruolo centrale nella teoria di Bayes, è una misura della probabilità che un evento si verifichi, dato che un altro evento si sia già verificato. Il teorema di Bayes può essere descritto dalla seguente espressione in cui X e Y rappresentano rispettivamente gli eventi X e Y:
- Pr (X|Y): la probabilità che si verifichi l’evento X dato che si è verificato o è vero l’evento o la condizione Y
- Pr (Y|X): la probabilità che si verifichi l’evento Y dato che si è verificato o è vero l’evento o la condizione X
- Pr (X) & Pr (Y): le probabilità di osservare rispettivamente gli eventi X e Y
Nel caso dell’esempio precedente, la probabilità di contrarre il Coronavirus (evento X) condizionata all’età di una persona è Pr (X|Y), che è uguale alla probabilità di avere una certa età dato che si è contratto il Coronavirus, Pr (Y|X), moltiplicata per la probabilità di contrarre il Coronavirus, Pr (X), divisa per la probabilità di avere una certa età, Pr (Y).
Regressione Lineare
In precedenza è stato introdotto il concetto di causalità tra le variabili, che si verifica quando una variabile ha un impatto diretto su un’altra variabile. Quando la relazione tra due variabili è lineare, la Regressione Lineare è un metodo statistico che può aiutare a modellare l’impatto di una variazione unitaria in una variabile, la variabile indipendente, sui valori di un’altra variabile, la variabile dipendente.
Le variabili dipendenti sono spesso chiamate variabili di risposta o variabili spiegate, mentre le variabili indipendenti sono spesso chiamate regressori o variabili esplicative. Quando il modello di Regressione Lineare si basa su una singola variabile indipendente, allora il modello viene chiamato Regressione Lineare Semplice, mentre quando il modello si basa su più variabili indipendenti, viene chiamato Regressione Lineare Multipla. La Regressione Lineare Semplice può essere descritta dalla seguente espressione:
dove Y è la variabile dipendente, X è la variabile indipendente che fa parte dei dati, ?0 è l’intercetta che è sconosciuta e costante, ?1 è il coefficiente di pendenza o il parametro corrispondente alla variabile X che è anch’esso sconosciuto e costante. Infine, u è il termine di errore che il modello commette quando stima i valori di Y. L’idea principale della regressione lineare è trovare la retta di regressione migliore, la retta di regressione, attraverso un insieme di dati accoppiati (X, Y). Un esempio di applicazione della Regressione Lineare è la modellazione dell’impatto della Lunghezza del Becco sulla Massa Corporea dei pinguini, che è visualizzata di seguito.
Fonte immagine: L’autore
# Codice R per il grafico
install.packages("ggplot2")
install.packages("palmerpenguins")
library(palmerpenguins)
library(ggplot2)
View(data(penguins))
ggplot(data = penguins, aes(x = flipper_length_mm,y = body_mass_g))+
geom_smooth(method = "lm", se = FALSE, color = 'purple')+
geom_point()+
labs(x="Lunghezza del Becco (mm)",y="Massa Corporea (g)")
La Regressione Lineare Multipla con tre variabili indipendenti può essere descritta dalla seguente espressione:
Minimi Quadrati Ordinari
I minimi quadrati ordinari (OLS) è un metodo per stimare i parametri sconosciuti come ?0 e ?1 in un modello di regressione lineare. Il modello si basa sul principio dei minimi quadrati che minimizza la somma dei quadrati delle differenze tra la variabile dipendente osservata e i suoi valori previsti dalla funzione lineare della variabile indipendente, spesso chiamati valori adattati. Questa differenza tra i valori reali e previsti della variabile dipendente Y è chiamata residuo e ciò che fa OLS è minimizzare la somma dei residui al quadrato. Questo problema di ottimizzazione porta alle seguenti stime OLS per i parametri sconosciuti ?0 e ?1 che sono anche conosciute come stime dei coefficienti.
Una volta che questi parametri del modello di regressione lineare semplice sono stimati, i valori adattati della variabile di risposta possono essere calcolati come segue:
Errore Standard
Gli errori residui o i termini di errore stimati possono essere determinati come segue:
È importante tenere presente la differenza tra i termini di errore e i residui. I termini di errore non vengono mai osservati, mentre i residui vengono calcolati dai dati. La regressione OLS stima i termini di errore per ogni osservazione ma non il vero termine di errore. Quindi, la vera varianza dell’errore è ancora sconosciuta. Inoltre, queste stime sono soggette a incertezza campionaria. Ciò significa che non saremo mai in grado di determinare l’esatta stima, il vero valore, di questi parametri dai dati campionari in un’applicazione empirica. Tuttavia, possiamo stimarlo calcolando la varianza residua campionaria utilizzando i residui come segue.
Questa stima della varianza dei residui campionari aiuta a stimare la varianza dei parametri stimati che spesso viene espressa come segue:
La radice quadrata di questo termine di varianza viene chiamata l’errore standard della stima che è un componente chiave nell’analisi dell’accuratezza delle stime dei parametri. Viene utilizzata per calcolare le statistiche di test e gli intervalli di confidenza. L’errore standard può essere espresso come segue:
È importante tenere presente la differenza tra i termini di errore e i residui. I termini di errore non vengono mai osservati, mentre i residui vengono calcolati dai dati.
Assunzioni OLS
Il metodo di stima OLS fa le seguenti assunzioni che devono essere soddisfatte per ottenere risultati di previsione affidabili:
A1: Assunzione di Linearità afferma che il modello sia lineare rispetto ai parametri.
A2: Assunzione di Campione Casuale afferma che tutte le osservazioni nel campione siano selezionate in modo casuale.
A3: Assunzione di Esogeneità afferma che le variabili indipendenti sono incorrelate con i termini di errore.
A4: Assunzione di Omoschedasticità afferma che la varianza di tutti i termini di errore è costante.
A5: Assunzione di Assenza di Multi-Collinearità Perfetta afferma che nessuna delle variabili indipendenti è costante e non ci sono relazioni lineari esatte tra le variabili indipendenti.
def runOLS(Y,X):
# Stima OLS Y = Xb + e --> beta_hat = (X'X)^-1(X'Y)
beta_hat = np.dot(np.linalg.inv(np.dot(np.transpose(X), X)), np.dot(np.transpose(X), Y))
# Predizione OLS
Y_hat = np.dot(X,beta_hat)
residui = Y-Y_hat
RSS = np.sum(np.square(residui))
sigma_squared_hat = RSS/(N-2)
TSS = np.sum(np.square(Y-np.repeat(Y.mean(),len(Y))))
MSE = sigma_squared_hat
RMSE = np.sqrt(MSE)
R_squared = (TSS-RSS)/TSS
# Errore standard delle stime: radice quadrata della varianza della stima
var_beta_hat = np.linalg.inv(np.dot(np.transpose(X),X))*sigma_squared_hat
SE = []
t_stats = []
p_values = []
CI_s = []
for i in range(len(beta)):
# errori standard
SE_i = np.sqrt(var_beta_hat[i,i])
SE.append(np.round(SE_i,3))
# t-statistiche
t_stat = np.round(beta_hat[i,0]/SE_i,3)
t_stats.append(t_stat)
# valore p della t-statistica p[|t_stat| >= t-treshhold a due code]
p_value = t.sf(np.abs(t_stat),N-2) * 2
p_values.append(np.round(p_value,3))
# intervalli di confidenza = beta_hat -+ margine di errore
t_critico = t.ppf(q =1-0.05/2, df = N-2)
margine_di_errore = t_critico*SE_i
CI = [np.round(beta_hat[i,0]-margine_di_errore,3), np.round(beta_hat[i,0]+margine_di_errore,3)]
CI_s.append(CI)
return(beta_hat, SE, t_stats, p_values,CI_s,
MSE, RMSE, R_squared)
Proprietà dei parametri
Sotto l’assunzione che i criteri OLS A1 – A5 siano soddisfatti, gli stimatori OLS dei coefficienti β0 e β1 sono BLUE e coerenti.
Teorema di Gauss-Markov
Questo teorema evidenzia le proprietà delle stime OLS dove il termine BLUE sta per Miglior stimatore lineare non distorto.
Distorsione
La distorsione di uno stimatore è la differenza tra il suo valore atteso e il vero valore del parametro che viene stimato e può essere espresso come segue:
Quando affermiamo che lo stimatore è non distorto ciò che intendiamo è che la distorsione è uguale a zero, il che implica che il valore atteso dello stimatore è uguale al vero valore del parametro, cioè:
L’assenza di distorsione non garantisce che la stima ottenuta con un particolare campione sia uguale o vicina a β. Ciò che significa è che, se si estraggono ripetutamente campioni casuali dalla popolazione e si calcola la stima ogni volta, allora la media di queste stime sarebbe uguale o molto vicina a β.
Efficienza
Il termine miglior nel teorema di Gauss-Markov si riferisce alla varianza dello stimatore ed è chiamato efficienza. Un parametro può avere più stimatori, ma quello con la varianza più bassa viene chiamato efficiente.
Coerenza
Il termine coerenza va di pari passo con i termini dimensione del campione e convergenza. Se lo stimatore converge al vero parametro man mano che la dimensione del campione diventa molto grande, allora questo stimatore è detto coerente, cioè:
Sotto l’assunzione che i criteri OLS A1 – A5 siano soddisfatti, gli stimatori OLS dei coefficienti β0 e β1 sono BLUE e coerenti. Teorema di Gauss-Markov
Tutte queste proprietà valgono per le stime OLS come riassunto nel teorema di Gauss-Markov. In altre parole, le stime OLS hanno la varianza più piccola, sono prive di distorsione, lineari nei parametri e coerenti. Queste proprietà possono essere dimostrate matematicamente utilizzando le ipotesi OLS fatte in precedenza.
Intervalli di confidenza
L’intervallo di confidenza è l’intervallo che contiene il vero parametro della popolazione con una certa probabilità predefinita, chiamata livello di confidenza dell’esperimento, ed è ottenuto utilizzando i risultati del campione e la margine di errore.
Margine di errore
Il margine di errore è la differenza tra i risultati del campione e ciò che sarebbe stato il risultato se si fosse utilizzata l’intera popolazione.
Livello di confidenza
Il livello di confidenza descrive il livello di certezza nei risultati sperimentali. Ad esempio, un livello di confidenza del 95% significa che se si eseguisse lo stesso esperimento ripetutamente per 100 volte, allora 95 di quelle 100 prove porterebbero a risultati simili. Si noti che il livello di confidenza è definito prima dell’inizio dell’esperimento perché influenzerà quanto sarà grande la margine di errore alla fine dell’esperimento.
Intervallo di confidenza per le stime OLS
Come già menzionato in precedenza, le stime OLS della regressione lineare semplice, le stime per l’intercetta ?0 e il coefficiente di pendenza ?1, sono soggette a incertezza campionaria. Tuttavia, possiamo costruire degli intervalli di confidenza (CI) per questi parametri che conterranno il vero valore di questi parametri nel 95% di tutti i campioni. Vale a dire, l’intervallo di confidenza al 95% per ? può essere interpretato nel seguente modo:
- L’intervallo di confidenza è l’insieme di valori per cui un test di ipotesi non può essere rigettato al livello del 5%.
- L’intervallo di confidenza ha una probabilità del 95% di contenere il vero valore di ?.
Gli intervalli di confidenza al 95% delle stime OLS possono essere costruiti nel seguente modo:
che si basa sulla stima del parametro, l’errore standard di quella stima e il valore 1,96 che rappresenta la soglia di errore corrispondente alla regola di rigetto del 5%. Questo valore è determinato utilizzando la tabella della distribuzione normale, che sarà discussa in seguito in questo articolo. Nel frattempo, la figura seguente illustra l’idea dell’intervallo di confidenza al 95%:
Fonte immagine: Wikipedia
Si noti che l’intervallo di confidenza dipende anche dalla dimensione del campione, dato che viene calcolato utilizzando l’errore standard che si basa sulla dimensione del campione.
Il livello di confidenza viene definito prima dell’inizio dell’esperimento perché influenzerà quanto grande sarà la soglia di errore alla fine dell’esperimento.
Test di ipotesi statistico
Testare un’ipotesi in statistica è un modo per testare i risultati di un esperimento o di un sondaggio per determinare quanto significativi siano i risultati. Fondamentalmente, si sta testando se i risultati ottenuti sono validi verificando le probabilità che i risultati siano stati ottenuti per caso. Se così fosse, i risultati non sono affidabili e nemmeno l’esperimento. Il test di ipotesi fa parte dell’inferenza statistica.
Ipotesi nulla e alternativa
Innanzitutto, è necessario determinare la tesi che si desidera testare, quindi è necessario formulare l’ipotesi nulla e l’ipotesi alternativa. Il test può avere due possibili risultati e in base ai risultati statistici è possibile rigettare l’ipotesi enunciata o accettarla. Come regola generale, gli statistici tendono a mettere la versione o la formulazione dell’ipotesi nell’ipotesi nulla che deve essere rigettata, mentre la versione accettabile e desiderata è enunciata nell’ipotesi alternativa.
Significatività statistica
Guardiamo all’esempio sopra menzionato in cui il modello di regressione lineare è stato utilizzato per indagare se la lunghezza della pinna dei pinguini, la variabile indipendente, ha un impatto sulla massa corporea, la variabile dipendente. Possiamo formulare questo modello con la seguente espressione statistica:
Successivamente, una volta che le stime OLS dei coefficienti sono state calcolate, possiamo formulare le seguenti ipotesi nulla e alternativa per testare se la lunghezza della pinna ha un impatto statisticamente significativo sulla massa corporea:
dove H0 e H1 rappresentano rispettivamente l’ipotesi nulla e l’ipotesi alternativa. Il rigetto dell’ipotesi nulla significherebbe che un aumento di una unità nella lunghezza della pinna ha un impatto diretto sulla massa corporea. Dato che la stima del parametro ?1 descrive questo impatto della variabile indipendente, la lunghezza della pinna, sulla variabile dipendente, la massa corporea. Questa ipotesi può essere riformulata come segue:
dove H0 afferma che la stima del parametro di ?1 è uguale a 0, cioè l’effetto della lunghezza del pinguino sulla massa corporea è statisticamente insignificante, mentre H0 afferma che la stima del parametro di ?1 non è uguale a 0, suggerendo che l’effetto della lunghezza del pinguino sulla massa corporea è statisticamente significativo.
Errori di Tipo I e Tipo II
Nel contesto del Test di Ipotesi Statistica, è necessario considerare due tipi concettuali di errori: l’errore di Tipo I e l’errore di Tipo II. L’errore di Tipo I si verifica quando la Null viene erroneamente rifiutata, mentre l’errore di Tipo II si verifica quando l’Ipotesi Nulla viene erroneamente non rifiutata. Una matrice di confusione può aiutare a visualizzare chiaramente la gravità di questi due tipi di errori.
Come regola generale, gli statistici tendono a porre la versione dell’ipotesi sotto l’Ipotesi Nulla che deve essere rifiutata, mentre la versione accettabile e desiderata è formulata sotto l’Ipotesi Alternativa.
Test Statistici
Una volta che sono state formulate l’Ipotesi Nulla e l’Ipotesi Alternativa e definite le assunzioni del test, il passo successivo è determinare quale test statistico è appropriato e calcolare la statistica del test. La decisione di rifiutare o non rifiutare l’Ipotesi Nulla può essere determinata confrontando la statistica del test con il valore critico. Questo confronto mostra se la statistica del test osservata è più estrema del valore critico definito e può avere due possibili risultati:
- La statistica del test è più estrema del valore critico: l’ipotesi nulla può essere rifiutata
- La statistica del test non è così estrema come il valore critico: l’ipotesi nulla non può essere rifiutata
Il valore critico si basa su un livello di significatività predefinito (di solito scelto come 5%) e sul tipo di distribuzione di probabilità seguita dalla statistica del test. Il valore critico divide l’area sotto questa curva di distribuzione di probabilità in regioni di rifiuto e regioni di non rifiuto. Ci sono numerosi test statistici utilizzati per testare varie ipotesi. Esempi di test statistici sono il test t di Student, il test F, il test del Chi-quadro, il test di Endogenità di Durbin-Hausman-Wu, il test di Eteroschedasticità di White. In questo articolo, analizzeremo due di questi test statistici.
L’errore di Tipo I si verifica quando la Null viene erroneamente rifiutata, mentre l’errore di Tipo II si verifica quando l’Ipotesi Nulla viene erroneamente non rifiutata.
Test t di Student
Uno dei test statistici più semplici e popolari è il Test t di Student, che può essere utilizzato per testare varie ipotesi, specialmente quando si tratta di un’ipotesi in cui l’area principale di interesse è trovare evidenze per l’effetto statisticamente significativo di una variabile singola. La statistica del test t segue la distribuzione t di Student e può essere determinata come segue:
dove h0 nel numeratore è il valore rispetto al quale si sta testando la stima del parametro. Quindi, la statistica del test t è uguale alla stima del parametro meno il valore ipotizzato, diviso per l’errore standard della stima del coefficiente. Nella precedente ipotesi enunciata, dove volevamo testare se la lunghezza del pinguino ha un impatto statisticamente significativo sulla massa corporea o meno, questo test può essere eseguito utilizzando un t-test e h0 è in quel caso uguale a 0 poiché si sta testando la stima del coefficiente di pendenza rispetto al valore 0.
Esistono due versioni del test t: un test t a due code e un test t a una coda. Se hai bisogno della prima o della seconda versione del test dipende interamente dall’ipotesi che desideri testare.
Il test t a due code può essere utilizzato quando l’ipotesi testa una relazione uguale rispetto a una relazione non uguale sotto l’Ipotesi Nulla e l’Ipotesi Alternativa, simile al seguente esempio:
Il t-test a due code ha due regioni di rifiuto come visualizzato nella figura qui sotto:
Fonte immagine: Hartmann, K., Krois, J., Waske, B. (2018): Progetto di e-learning SOGA: Statistica e analisi dei dati geospaziali. Dipartimento di Scienze della Terra, Freie Universitaet Berlin
In questa versione del t-test, l’ipotesi nulla viene rifiutata se lo statistico t calcolato è troppo piccolo o troppo grande.
In questo caso, lo statistico del test viene confrontato con i valori critici in base alla dimensione del campione e al livello di significatività scelto. Per determinare il valore esatto del punto di taglio, può essere utilizzata la tabella di distribuzione t a due code.
Il t-test a una coda può essere utilizzato quando l’ipotesi testa una relazione positiva/negativa rispetto a una relazione negativa/positiva sotto l’ipotesi nulla e alternativa, come negli esempi seguenti:
Il t-test a una coda ha una regione di rifiuto singola e a seconda del lato dell’ipotesi la regione di rifiuto si trova sul lato sinistro o destro come visualizzato nella figura qui sotto:
Fonte immagine: Hartmann, K., Krois, J., Waske, B. (2018): Progetto di e-learning SOGA: Statistica e analisi dei dati geospaziali. Dipartimento di Scienze della Terra, Freie Universitaet Berlin
In questa versione del t-test, l’ipotesi nulla viene rifiutata se lo statistico t calcolato è più piccolo/grande del valore critico.
Test F
Il test F è un altro test statistico molto popolare utilizzato spesso per testare ipotesi che testano una significatività statistica congiunta di più variabili. Questo è il caso in cui si desidera testare se più variabili indipendenti hanno un impatto statisticamente significativo su una variabile dipendente. Di seguito è riportato un esempio di un’ipotesi statistica che può essere testata utilizzando il test F:
dove l’ipotesi nulla afferma che le tre variabili corrispondenti a questi coefficienti sono statisticamente insignificanti congiuntamente e l’alternativa afferma che queste tre variabili sono statisticamente significative congiuntamente. Lo statistico del test F segue la distribuzione F e può essere determinato come segue:
dove SSRrestricted è la somma dei residui al quadrato del modello ristretto che è lo stesso modello che esclude dalle variabili i target dichiarati come insignificanti sotto l’ipotesi nulla, SSRunrestricted è la somma dei residui al quadrato del modello non ristretto che è il modello che include tutte le variabili, q rappresenta il numero di variabili che vengono testate congiuntamente per l’insignificanza sotto l’ipotesi nulla, N è la dimensione del campione e k è il numero totale di variabili nel modello non ristretto. I valori SSR sono forniti accanto alle stime dei parametri dopo l’esecuzione della regressione OLS e lo stesso vale anche per le statistiche F. Di seguito è riportato un esempio di output del modello MLR in cui sono indicati i valori SSR e F-statistics.
Fonte immagine: Stock e Whatson
Il test F ha una singola regione di rifiuto come visualizzato qui sotto:
Fonte immagine: U of Michigan
Se le F-statistic calcolate sono maggiori del valore critico, allora si può rifiutare l’ipotesi nulla che suggerisce che le variabili indipendenti sono statisticamente significative insieme. La regola di rifiuto può essere espressa come segue:
P-Values
Un altro modo rapido per determinare se rifiutare o supportare l’ipotesi nulla è utilizzare i p-values. Il p-value è la probabilità che si verifichi la condizione nell’ipotesi nulla. In altre parole, il p-value è la probabilità, assumendo che l’ipotesi nulla sia vera, di osservare un risultato almeno altrettanto estremo della statistica del test. Più piccolo è il p-value, più forte è la evidenza contro l’ipotesi nulla, suggerendo che può essere rifiutata.
L’interpretazione di un p-value dipende dal livello di significatività scelto. Più spesso, si utilizzano livelli di significatività dello 1%, 5% o 10% per interpretare il p-value. Quindi, invece di utilizzare il t-test e l’F-test, i p-value di queste statistiche di test possono essere utilizzati per testare le stesse ipotesi.
La figura seguente mostra un esempio di output di una regressione OLS con due variabili indipendenti. In questa tabella, il p-value del t-test, che testa la significatività statistica dell’estimatore del parametro della variabile “class_size”, e il p-value dell’F-test, che testa la significatività statistica congiunta degli stimatori dei parametri delle variabili “class_size” e “el_pct”, sono sottolineati.
Fonte immagine: Stock and Whatson
Il p-value corrispondente alla variabile “class_size” è 0.011 e confrontando questo valore con i livelli di significatività 1% o 0.01, 5% o 0.05, 10% o 0.1, si possono trarre le seguenti conclusioni:
- 0.011 > 0.01 ? L’ipotesi nulla del t-test non può essere rifiutata al livello di significatività 1%
- 0.011 < 0.05 ? L’ipotesi nulla del t-test può essere rifiutata al livello di significatività 5%
- 0.011 < 0.10 ? L’ipotesi nulla del t-test può essere rifiutata al livello di significatività 10%
Quindi, questo p-value suggerisce che il coefficiente della variabile “class_size” è statisticamente significativo ai livelli di significatività 5% e 10%. Il p-value corrispondente all’F-test è 0.0000 e poiché 0 è minore di tutti e tre i valori limite; 0.01, 0.05, 0.10, si può concludere che l’ipotesi nulla dell’F-test può essere rifiutata in tutti e tre i casi. Ciò suggerisce che i coefficienti delle variabili “class_size” e “el_pct” sono statisticamente significativi insieme ai livelli di significatività 1%, 5% e 10%.
Limitazione dei p-values
Sebbene l’utilizzo dei p-values presenti molti vantaggi, ha anche delle limitazioni. Specificamente, il p-value dipende sia dall’entità dell’associazione che dalla dimensione del campione. Se l’entità dell’effetto è piccola e statisticamente insignificante, il p-value potrebbe ancora mostrare un impatto significativo a causa della grande dimensione del campione. L’opposto può accadere anche, un effetto può essere grande, ma non soddisfare i criteri p<0.01, 0.05 o 0.10 se la dimensione del campione è piccola.
Statistiche Inferenziali
Le statistiche inferenziali utilizzano dati campionari per effettuare giudizi ragionevoli sulla popolazione da cui provengono i dati campionari. Vengono utilizzate per indagare le relazioni tra le variabili all’interno di un campione e fare previsioni su come queste variabili si relazioneranno a una popolazione più ampia.
Sia la Legge dei Grandi Numeri (LLN) che il Teorema del Limite Centrale (CLM) hanno un ruolo significativo nelle statistiche inferenziali perché mostrano che i risultati sperimentali sono validi indipendentemente dalla forma della distribuzione originale della popolazione quando i dati sono sufficientemente numerosi. Più dati vengono raccolti, più accurate diventano le inferenze statistiche, di conseguenza, vengono generati stimatori di parametri più accurati.
Legge dei Grandi Numeri (LLN)
Supponiamo che X1, X2, . . . , Xn siano tutte variabili casuali indipendenti con la stessa distribuzione sottostante, anche chiamate indipendenti identicamente distribuite o i.i.d., dove tutte le X hanno la stessa media ? e la stessa deviazione standard ?. Man mano che la dimensione del campione aumenta, la probabilità che la media di tutte le X sia uguale alla media ? è uguale a 1. La Legge dei Grandi Numeri può essere riassunta come segue:
Teorema del Limite Centrale (CLM)
Supponiamo che X1, X2, . . . , Xn siano tutte variabili casuali indipendenti con la stessa distribuzione sottostante, anche chiamate indipendenti identicamente distribuite o i.i.d., dove tutte le X hanno la stessa media ? e la stessa deviazione standard ?. Man mano che la dimensione del campione aumenta, la distribuzione di probabilità di X converge nella distribuzione in una distribuzione normale con media ? e varianza ?-al quadrato. Il Teorema del Limite Centrale può essere riassunto come segue:
In altre parole, quando si ha una popolazione con media ? e deviazione standard ? e si prendono campioni casuali di dimensione sufficientemente grande da quella popolazione con rimpiazzo, allora la distribuzione delle medie campionarie sarà approssimativamente distribuita in modo normale.
Tecniche di Riduzione della Dimensionalità
La riduzione della dimensionalità è la trasformazione dei dati da uno spazio ad alta dimensionalità in uno spazio a bassa dimensionalità, in modo che questa rappresentazione a bassa dimensionalità dei dati contenga ancora le proprietà significative dei dati originali il più possibile.
Con l’aumento della popolarità dei Big Data, aumenta anche la domanda di queste tecniche di riduzione della dimensionalità, che riducono la quantità di dati e caratteristiche non necessarie. Esempi di tecniche di riduzione della dimensionalità popolari sono l’Analisi delle Componenti Principali (PCA), l’Analisi dei Fattori (Factor Analysis), la Correlazione Canonica (Canonical Correlation) e il Random Forest.
Analisi delle Componenti Principali (PCA)
L’Analisi delle Componenti Principali o PCA è una tecnica di riduzione della dimensionalità che viene spesso utilizzata per ridurre la dimensionalità di grandi set di dati, trasformando un ampio insieme di variabili in un insieme più piccolo che contiene ancora la maggior parte delle informazioni o delle variazioni del set di dati originale.
Supponiamo di avere un dato X con p variabili; X1, X2, …., Xp con autovettori e1, …, ep, e autovalori ?1,…, ?p. Gli autovalori mostrano la varianza spiegata da un particolare campo di dati rispetto alla varianza totale. L’idea alla base della PCA è creare nuove variabili (indipendenti), chiamate Componenti Principali, che sono una combinazione lineare delle variabili esistenti. L’i-esima componente principale può essere espressa come segue:
Successivamente, utilizzando la Regola del Gomito o la Regola di Kaiser, è possibile determinare il numero di componenti principali che riassumono in modo ottimale i dati senza perdere troppe informazioni. È importante anche considerare la proporzione di variazione totale (PRTV) spiegata da ciascuna componente principale per decidere se è vantaggioso includerla o escluderla. La PRTV per l’i-esima componente principale può essere calcolata utilizzando gli autovalori come segue:
Regola del Gomito
La Regola del Gomito o metodo del gomito è un approccio euristico che viene utilizzato per determinare il numero ottimale di componenti principali dai risultati della PCA. L’idea alla base di questo metodo è tracciare la variazione spiegata in funzione del numero di componenti e scegliere il gomito della curva come numero ottimale di componenti principali. Di seguito è riportato un esempio di un grafico a dispersione in cui la PRTV (asse Y) è rappresentata sul numero di componenti principali (asse X). Il gomito corrisponde al valore sull’asse X 2, il che suggerisce che il numero ottimale di componenti principali è 2.
Fonte immagine: Multivariate Statistics Github
Analisi dei fattori (FA)
L’analisi dei fattori o FA è un altro metodo statistico per la riduzione della dimensionalità. È una delle tecniche di interdipendenza più comunemente utilizzate e viene utilizzata quando l’insieme di variabili rilevanti mostra una interdipendenza sistematica e l’obiettivo è scoprire i fattori latenti che creano una comunanza. Supponiamo di avere un dato X con p variabili; X1, X2, …., Xp. Il modello FA può essere espresso come segue:
dove X è una matrice [p x N] di p variabili e N osservazioni, µ è la matrice media di popolazione [p x N], A è la matrice di caricamento dei fattori comuni [p x k], F [k x N] è la matrice dei fattori comuni e u [pxN] è la matrice dei fattori specifici. Quindi, in altre parole, un modello di fattori è una serie di regressioni multiple, che predicono ciascuna delle variabili Xi dai valori dei fattori comuni non osservabili fi:
Ogni variabile ha k dei suoi stessi fattori comuni, e questi sono correlati alle osservazioni tramite la matrice di caricamento dei fattori per una singola osservazione come segue: Nell’analisi dei fattori, i fattori sono calcolati per massimizzare la varianza tra i gruppi mentre minimizzano la varianza all’interno del gruppo. Sono fattori perché raggruppano le variabili sottostanti. A differenza dell’PCA, nell’FA i dati devono essere normalizzati, dato che l’FA assume che il dataset segua una distribuzione normale.
Tatev Karen Aslanyan è una data scientist full-stack con esperienza nel Machine Learning e nell’IA. È anche la co-fondatrice di LunarTech, una piattaforma educativa online nel campo della tecnologia, e la creatrice di The Ultimate Data Science Bootcamp. Tatev Karen, laureata in Econometria e Scienze della Gestione, si è specializzata nel campo del Machine Learning e dell’IA, concentrandosi sui sistemi di raccomandazione e sull’NLP, supportata dalle sue ricerche scientifiche e dai suoi articoli pubblicati. Dopo cinque anni di insegnamento, Tatev sta ora mettendo la sua passione in LunarTech, contribuendo a plasmare il futuro della data science.
Originale. Ripubblicato con il permesso dell’autore.