Scomposizione dei modelli lineari generalizzati

Scomposizione modelli lineari generalizzati

Espandi le tue competenze di modellizzazione oltre la regressione lineare

Foto di Roman Mager su Unsplash

Background

La regressione lineare è di gran lunga l’algoritmo più comune che impariamo nella scienza dei dati. Ogni professionista ne ha sentito parlare e l’ha utilizzato. Tuttavia, per alcuni problemi, non è adatto e abbiamo bisogno di “generalizzarlo”. Questo è dove entrano in gioco i modelli lineari generalizzati (GLM) e forniscono una maggiore flessibilità alla tua modellizzazione di regressione, rappresentando uno strumento prezioso per i data scientist.

Cosa sono i GLM?

Come abbiamo detto sopra, i GLM “generalizzano” la regressione lineare ordinaria, ma cosa intendiamo veramente?

Consideriamo il modello di regressione lineare più semplice:

Dove β sono i coefficienti, x è la variabile esplicativa e ε sono gli errori distribuiti normalmente.

Diciamo che vogliamo modellare quante chiamate di reclamo riceve un’azienda assicurativa in un’ora. La regressione lineare sarebbe un modello adatto per questo problema?

No!

I motivi sono:

  • La regressione lineare assume errori distribuiti normalmente e la distribuzione normale può assumere valori negativi. Tuttavia, non possiamo avere chiamate di reclamo negative.
  • Il secondo punto è che la distribuzione normale, quindi la regressione lineare, è continua. Mentre le chiamate di reclamo sono tutte intere e discrete, non possiamo avere 1.1 chiamate.

Pertanto, il modello di regressione lineare non può gestire correttamente questo problema specifico. Tuttavia, possiamo generalizzare il modello di regressione a una distribuzione di probabilità che soddisfi i requisiti specificati in precedenza. In questo caso, sarebbe la distribuzione di Poisson (ne parleremo più avanti).

I GLM forniscono quindi semplicemente un framework su come possiamo collegare i nostri input agli output desiderati della distribuzione target. Aiutano a unificare molti modelli di regressione sotto un unico “ombrello matematico”.

Quadro teorico

Panoramica

La base dei GLM si basa su tre elementi chiave:

  • Predittore lineare (Componente sistematico)
  • Funzione di collegamento (Componente casuale)
  • Famiglia esponenziale