Costruire PCA da zero

PCA da zero

Potenzia la tua comprensione dell’Analisi delle Componenti Principali con una derivazione passo dopo passo

Mongolfiere. Immagine dell'autore.

L’Analisi delle Componenti Principali (PCA) è una vecchia tecnica comunemente utilizzata per la riduzione della dimensionalità. Nonostante sia un argomento ben noto tra gli scienziati dei dati, la derivazione di PCA viene spesso trascurata, lasciando dietro di sé preziose intuizioni sulla natura dei dati e sulla relazione tra calcolo, statistica e algebra lineare.

In questo articolo, deriviamo PCA attraverso un esperimento mentale, partendo da due dimensioni e estendendoci a dimensioni arbitrarie. Man mano che procediamo attraverso ogni derivazione, vedremo l’armoniosa interazione di rami apparentemente distinti della matematica, culminando in una elegante trasformazione delle coordinate. Questa derivazione svelerà la meccanica di PCA e rivelerà l’affascinante interconnessione dei concetti matematici. Imbarichiamoci in questa esplorazione illuminante di PCA e della sua bellezza.

Scaldarsi in due dimensioni

Come esseri umani che vivono in un mondo tridimensionale, comprendiamo generalmente concetti bidimensionali, ed è qui che inizieremo in questo articolo. Iniziare in due dimensioni semplificherà il nostro primo esperimento mentale e ci permetterà di comprendere meglio la natura del problema.

Teoria

Abbiamo un dataset che assomiglia a qualcosa del genere (nota che ogni feature dovrebbe essere scalata in modo da avere una media di 0 e una varianza di 1):

(1) Dati correlati. Immagine dell'autore.

<p.Notiamo immediatamente che questi dati si trovano in un sistema di coordinate descritto da x1 e x2, e queste variabili sono correlate. Il nostro obiettivo è trovare un nuovo sistema di coordinate basato sulla struttura di covarianza dei dati. In particolare, il primo vettore di base nel sistema di coordinate dovrebbe spiegare la maggior parte della varianza quando si proiettano i dati originali su di esso.

<p.Il nostro primo compito è trovare un vettore tale che quando proiettiamo i dati originali su di esso, la massima quantità di varianza venga preservata. In altre parole, il vettore ideale punta nella direzione della massima varianza, come definito da…