Scomposizione dei modelli lineari generalizzati
Scomposizione modelli lineari generalizzati
Espandi le tue competenze di modellizzazione oltre la regressione lineare
Background
La regressione lineare è di gran lunga l’algoritmo più comune che impariamo nella scienza dei dati. Ogni professionista ne ha sentito parlare e l’ha utilizzato. Tuttavia, per alcuni problemi, non è adatto e abbiamo bisogno di “generalizzarlo”. Questo è dove entrano in gioco i modelli lineari generalizzati (GLM) e forniscono una maggiore flessibilità alla tua modellizzazione di regressione, rappresentando uno strumento prezioso per i data scientist.
Cosa sono i GLM?
Come abbiamo detto sopra, i GLM “generalizzano” la regressione lineare ordinaria, ma cosa intendiamo veramente?
Consideriamo il modello di regressione lineare più semplice:
Dove β sono i coefficienti, x è la variabile esplicativa e ε sono gli errori distribuiti normalmente.
- Analisi dell’EDA sulla qualità dell’acqua in Python e analisi della potabilità
- Analisi dei dati umanitari Tabelle non strutturate di Excel con l’interprete di codice ChatGPT
- ChatGPT ci sta superando? Un’esplorazione attraverso la lente del Test di Turing
Diciamo che vogliamo modellare quante chiamate di reclamo riceve un’azienda assicurativa in un’ora. La regressione lineare sarebbe un modello adatto per questo problema?
No!
I motivi sono:
- La regressione lineare assume errori distribuiti normalmente e la distribuzione normale può assumere valori negativi. Tuttavia, non possiamo avere chiamate di reclamo negative.
- Il secondo punto è che la distribuzione normale, quindi la regressione lineare, è continua. Mentre le chiamate di reclamo sono tutte intere e discrete, non possiamo avere 1.1 chiamate.
Pertanto, il modello di regressione lineare non può gestire correttamente questo problema specifico. Tuttavia, possiamo generalizzare il modello di regressione a una distribuzione di probabilità che soddisfi i requisiti specificati in precedenza. In questo caso, sarebbe la distribuzione di Poisson (ne parleremo più avanti).
I GLM forniscono quindi semplicemente un framework su come possiamo collegare i nostri input agli output desiderati della distribuzione target. Aiutano a unificare molti modelli di regressione sotto un unico “ombrello matematico”.
Quadro teorico
Panoramica
La base dei GLM si basa su tre elementi chiave:
- Predittore lineare (Componente sistematico)
- Funzione di collegamento (Componente casuale)
- Famiglia esponenziale