Interpretazione geometrica della regressione lineare in Machine Learning rispetto alla statistica classica

Un'analisi geometrica dell'uso della regressione lineare nella Machine Learning rispetto alla statistica classica

Svelare la confusione sulla regressione lineare in modo visivo e analitico

Immagine: illustrazione della regressione lineare, di Stpasha, tramite Wikimedia Commons (Dominio pubblico). Link originale dell'immagine: https://upload.wikimedia.org/wikipedia/commons/8/87/OLS_geometric_interpretation.svg

L’immagine sopra rappresenta un’interpretazione geometrica dei minimi quadrati ordinari (OLS) o della regressione lineare (termini usati in modo interscambiabile nella statistica classica). Analizziamo ciò che vediamo in modo intuitivo:

  • Variabili (X1 e X2): Immagina di avere due variabili, X1 e X2. Queste potrebbero rappresentare qualsiasi cosa, come ad esempio le ore di studio e il numero di esami di pratica che fai, rispettivamente.
  • Punti dati (y): Ora hai il tuo risultato o ciò che stai cercando di prevedere, che chiamiamo ‘y’. Nel nostro esempio, potrebbe essere il tuo punteggio all’esame effettivo.
  • Piano (colX): Il piano rappresenta tutti i possibili valori previsti che puoi ottenere combinando diverse quantità delle tue variabili X1 e X2. Nel nostro esempio, potrebbe rappresentare tutti i possibili punteggi all’esame che potresti prevedere in base a diverse quantità di studio e esami di pratica.
  • Coefficienti stimati (Beta1 e Beta2): Questi sono i migliori indovinelli che il metodo OLS fa su quanto ogni variabile influisce sul tuo punteggio. Quindi, Beta 1 potrebbe dirti di quanto il tuo punteggio aumenta per ogni ora di studio in più e Beta 2 potrebbe dirti di quanto aumenta per ogni ulteriore esame di pratica che fai.
  • Punto previsto (XB ^): Questo è il punteggio previsto che otterresti in base ai coefficienti stimati. Si trova sul piano perché è una combinazione delle tue variabili X1 e X2 utilizzando le stime di OLS.
  • Punto effettivo (y): Questo è il tuo punteggio all’esame effettivo.
  • Errore (ε): Questa è la differenza tra il tuo punteggio effettivo e il punteggio previsto. In altre parole, è quanto la previsione è stata inaccurata rispetto alla realtà.

Ora, come funziona OLS con tutto ciò?

OLS cerca di trovare i valori per Beta1 e Beta 2 in modo che quando prevedi ‘y’ (il punteggio all’esame) usando X1 e X2 (ore di studio e esami di pratica), l’errore (ε) sia il più piccolo possibile per tutti i tuoi punti dati. Nell’immagine, è come regolare il piano finché le linee tratteggiate verticali (che rappresentano gli errori) sono collettivamente il più corte possibile. La distanza più breve dal dato effettivo (y) al piano (colX) è sempre una linea retta perpendicolare al piano. OLS trova il piano particolare dove queste distanze perpendicolari sono ridotte al minimo per tutti i punti.

In altre parole, OLS sta cercando di “adattare” il piano il più vicino possibile ai tuoi punteggi effettivi, riconoscendo che di solito non passerà attraverso tutti i punti effettivi perché la vita reale è raramente perfetta.

È come adattare il miglior foglio di carta sotto una dispersione di punti di matita in modo che la carta sia il più vicino possibile a tutti i punti contemporaneamente.

Andiamo oltre le principali assunzioni di OLS e colleghiamole con l’immagine precedente:

1. Linearità

Assunzione: La relazione tra le variabili indipendenti (X1, X2) e la variabile dipendente (y) è lineare.

Interpretazione visiva: Nell’immagine, è per questo che usiamo un piano (colX) per rappresentare la combinazione di X1 e X2. Se la relazione non fosse lineare, non potremmo rappresentarla con un piano piatto; sarebbe incurvato o di qualche altra forma.

2. Indipendenza

Assunzione: Le osservazioni sono indipendenti l’una dall’altra.

Interpretazione visuale: Ogni punto dati (che rappresenta un’osservazione) è rappresentato indipendentemente dagli altri. Se ci fosse dipendenza, vedremmo un modello sistemico negli errori (ε), come ad esempio tutti che giacciono su un unico lato del piano, il che suggerirebbe che il modo in cui un punto dati è posizionato potrebbe prevedere un altro, violando questa assunzione.

3. Omoschedasticità

Assunzione: La varianza dei termini di errore (ε) è costante per tutti i livelli delle variabili indipendenti.

Interpretazione visuale: Idealmente, le distanze perpendicolari dai punti dati reali (y) al piano di previsione (colX) dovrebbero essere uniformemente distribuite. Non dovrebbe esserci una forma a imbuto o un modello in queste distanze; dovrebbero apparire casuali. Se gli errori diventano più grandi o più piccoli all’aumentare di X1 o X2, ciò violerebbe l’omoschedasticità.

4. Assenza di multicollinearità perfetta

Assunzione: Le variabili indipendenti non sono perfettamente correlate tra loro.

Interpretazione visuale: Nel diagramma, X1 e X2 sono rappresentate da due frecce che puntano in direzioni diverse. Se fossero perfettamente correlate, punterebbero nella stessa direzione e non avremmo un piano ma una linea. Ciò renderebbe impossibile stimare l’effetto unico di X1 e X2 su y.

5. Assenza di autocorrelazione

Assunzione: I termini di errore non sono correlati tra loro.

Interpretazione visuale: Questa assunzione si riferisce ai termini di errore, che non sono mostrati esplicitamente nell’immagine, ma si presume che ogni termine di errore (ε) sia casuale e non influenzato dal termine di errore precedente o successivo. Se ci fosse un modello (come se un errore fosse sempre seguito da un altro errore di dimensioni simili), sospetteremmo l’autocorrelazione.

6. Esogenità

Assunzione: I termini di errore hanno un valore atteso di zero.

Interpretazione visuale: Ciò significa che il piano dovrebbe essere posizionato in modo che gli errori, in media, si annullino reciprocamente. Alcuni punti dati saranno sopra il piano e altri sotto, ma non c’è alcun bias sistematico che li renda tutti sopra o sotto.

7. Normalità degli errori (spesso un’assunzione per i test di ipotesi)

Assunzione: I termini di errore sono distribuiti in modo normale.

Interpretazione visuale: Sebbene l’assunzione di normalità non sia qualcosa che possiamo visualizzare in un grafico tridimensionale dei dati e del modello, se dovessimo osservare un istogramma dei termini di errore, ci aspetteremmo di vedere la familiare curva a campana di una distribuzione normale.

Come differisce la regressione lineare nell’universo del Machine Learning dalla regressione lineare basata su Ordinary Least Squares (OLS) nella statistica classica?

Nella statistica classica, l’OLS può essere affrontato attraverso il prisma della Massima Verosimiglianza (MLE). Sia MLE che OLS mirano a trovare i migliori parametri per un modello, ma provengono da filosofie diverse e utilizzano metodi diversi per raggiungere questo scopo.

Approccio Massima Verosimiglianza (MLE): MLE si basa sulla probabilità. Pone la domanda: “Dati un insieme di punti dati, quali sono i parametri più verosimili del modello che potrebbero aver generato questi dati?” MLE assume una certa distribuzione di probabilità per gli errori (spesso una distribuzione normale) e cerca quindi i valori dei parametri che massimizzano la probabilità di osservare i dati effettivi. Nell’interpretazione geometrica, ciò equivale a regolare l’angolo e la posizione del piano (colX) in modo tale che la probabilità di vedere i punti dati effettivi (y) sia la più alta. La verosimiglianza incorpora non solo le distanze tra i punti e il piano (gli errori), ma anche la forma della distribuzione degli errori.

Minimizzazione di una Funzione Obiettivo nel Machine Learning (ML): D’altra parte, gli approcci di ML di solito considerano la regressione come un problema di ottimizzazione. L’obiettivo è trovare i parametri che minimizzino una certa funzione obiettivo, che di solito è la somma dei quadrati degli errori (SSE). Questo è un approccio più diretto rispetto a MLE, poiché non fa così tante assunzioni sulla distribuzione di probabilità sottostante degli errori. Cerca semplicemente di ridurre al minimo la distanza tra i punti dati e il piano previsto, in modo quadrato per penalizzare più severamente gli errori più grandi. L’interpretazione geometrica è che si sta inclinando e spostando il piano (colX) per minimizzare la somma dei quadrati delle distanze perpendicolari (le linee tratteggiate) tra i punti effettivi (y) e il piano.

Confronto tra i due: Sebbene le procedure differiscano – una è un metodo basato sulla probabilità e l’altra è una tecnica di ottimizzazione – spesso producono lo stesso risultato nel caso di OLS. Ciò avviene perché quando gli errori sono distribuiti in modo normale, il MLE per i coefficienti di un modello lineare porta alle stesse equazioni della minimizzazione della somma degli errori quadratici. Nell’immagine, entrambi i metodi stanno cercando efficacemente di posizionare lo stesso piano nello spazio delle variabili X1 e X2 in modo da rappresentare al meglio la relazione con y.

La principale differenza sta nell’interpretazione e nella generalizzazione potenziale. Il framework del MLE consente maggiore flessibilità nella modellazione della struttura degli errori e può essere esteso a modelli in cui non si assume che gli errori siano distribuiti in modo normale. L’approccio ML è tipicamente più diretto dal punto di vista computazionale, concentrandosi esclusivamente sulla riduzione diretta degli errori senza preoccuparsi della distribuzione di probabilità sottostante.

In sintesi, sebbene gli approcci di minimizzazione MLE e ML possano arrivare agli stessi coefficienti per una regressione OLS, sono concettualmente distinti. Il MLE è probabilistico e basato sulla probabilità di osservare i dati in un dato modello, mentre la minimizzazione ML è algoritmica e si concentra sulla riduzione diretta dell’errore. La visualizzazione geometrica rimane la stessa per entrambi, ma la logica di posizionamento del piano è diversa.

Bonus: Cosa accade quando introduciamo la regolarizzazione nella sopra interpretazione?

La regolarizzazione è una tecnica utilizzata per prevenire l’overfitting nei modelli, che può verificarsi quando un modello è troppo complesso e inizia a catturare il rumore nei dati invece del vero modello sottostante. Esistono diversi tipi di regolarizzazione, ma i due più comuni sono:

  • Regressione Lasso (regolarizzazione L1): Aggiunge una penalità pari al valore assoluto della magnitudine dei coefficienti. Può ridurre alcuni coefficienti a zero, effettuando una selezione delle caratteristiche.
  • Regressione Ridge (regolarizzazione L2): Aggiunge una penalità pari al quadrato della magnitudine dei coefficienti. Tutti i coefficienti vengono ridotti nello stesso modo e nessuno viene azzerato.

Prendiamo ad esempio il processo di adattamento di una coperta (che rappresenta il nostro modello di regressione) su un letto (che rappresenta i nostri dati). Nell’OLS senza regolarizzazione, stiamo cercando di adattare la coperta in modo che tocchi il maggior numero possibile di punti (dati) sul letto, minimizzando la distanza tra la coperta e la superficie del letto (gli errori).

Immaginiamo ora che il letto sia piuttosto irregolare e che la coperta sia molto flessibile. Senza regolarizzazione, potremmo adattare la coperta così strettamente che s’adatta ad ogni singolo dosso e incavo, persino quelli piccoli che sono solo a causa di un’irregolarità nel lenzuolo – questo è l’overfitting.

Introduzione della Regolarizzazione:

  • Con Lasso (L1): È come dire “Voglio che la coperta si adatti bene, ma voglio anche che sia liscia con il minor numero possibile di pieghe”. Ogni piega rappresenta una caratteristica del nostro modello, e la regolarizzazione L1 cerca di ridurre al minimo il numero di pieghe. Alla fine, avrai una coperta che si adatta bene al letto ma potrebbe non entrare in ogni angolo e buco, specialmente se sono solo rumore. Nella visualizzazione geometrica, Lasso cercherà di mantenere il piano (colX) ben adattato ai punti, ma potrebbe appiattirsi nella direzione delle variabili meno importanti (riducendo i coefficienti a zero).
  • Con Ridge (L2): Questo è come voler una perfetta calzata, ma voler anche che la coperta si distenda uniformemente senza che una parte sia troppo lontana dal letto. Quindi, nonostante la coperta si adatti ancora al letto, non si contorcerà eccessivamente per adattarsi ai piccoli dossi. Nella visualizzazione geometrica, Ridge aggiunge una penalità che vincola i coefficienti, restringendoli verso zero ma non esattamente a zero. Ciò mantiene il piano vicino ai punti, ma impedisce che si inclini troppo per adattarsi troppo strettamente a punti specifici, mantenendo così una certa distanza (bias) per evitare l’overfitting al rumore.

Interpretazione Visuale con Regolarizzazione: Quando la regolarizzazione viene aggiunta all’interpretazione geometrica:

  • Il piano (colX) potrebbe non passare più così vicino a ciascun singolo punto dati (y) come prima. La regolarizzazione introduce un po ‘di bias appositamente.
  • Il piano tenderà ad essere più stabile e meno inclinato verso punti anomali singoli, poiché la penalità per avere coefficienti elevati significa che il modello non può essere troppo sensibile a singoli punti dati o caratteristiche.
  • La lunghezza dei vettori (Beta1X1 e Beta2X2) potrebbe essere più breve, riflettendo il fatto che l’influenza di ogni variabile sulla previsione viene deliberatamente controllata.

In sostanza, la regolarizzazione compensa un po’ la capacità del modello di adattarsi perfettamente ai dati di addestramento a favore di una migliore generalizzazione del modello, il che significa che si comporterà meglio su dati non visti, non solo sui dati su cui è stato addestrato. È come scegliere una coperta leggermente più larga che sia sufficientemente comoda per tutti gli scopi pratici, piuttosto che una che si adatti perfettamente a ogni singolo contorno ma potrebbe essere poco pratica o troppo specifica per un solo letto.

Conclusioni

In sintesi, l’interpretazione geometrica della regressione lineare colma il divario tra la statistica classica e l’apprendimento automatico, offrendo una comprensione intuitiva di questa tecnica fondamentale. Mentre la statistica classica affronta la regressione lineare attraverso il metodo dei minimi quadrati ordinari e l’apprendimento automatico spesso utilizza la massima verosimiglianza o la minimizzazione della funzione obiettivo, entrambi i metodi cercano in ultima analisi di minimizzare l’errore di previsione in modo visibilmente comprensibile.

L’introduzione di tecniche di regolarizzazione come Lasso e Ridge arricchisce ulteriormente questa interpretazione, mettendo in evidenza il bilanciamento tra l’accuratezza del modello e la sua generalizzabilità. Questi metodi evitano l’eccessivo adattamento, garantendo che il modello rimanga robusto ed efficace per dati nuovi e non visti.

In generale, questa prospettiva geometrica non solo smitifica la regressione lineare, ma sottolinea anche l’importanza dei concetti fondamentali nel panorama in evoluzione dell’analisi dei dati e dell’apprendimento automatico. È un potente ricordo di come algoritmi complessi possano avere radici in principi geometrici semplici, ma profondi.