Ti piace l’Analisi delle Componenti Principali? Un nuovo articolo riporta che può produrre artefatti di Oscillazione Fantasma

Ti appassiona l'Analisi delle Componenti Principali? Un nuovo articolo svela la possibilità di generare fenomeni di Oscillazione Fantasma

Analisi dei Componenti Principali (PCA), un metodo statistico ampiamente utilizzato per semplificare insiemi di dati complessi, è stato scoperto di produrre “oscillazioni fantasma” – pattern che appaiono nei dati anche se non esistono nell’insieme di dati originale. Continua a leggere per saperne di più su questo, di particolare rilevanza per te se sei abituato ad applicare PCA su insiemi di dati con le caratteristiche discusse. Questo costituisce anche un’opportunità per valutare altre limitazioni e svantaggi di PCA.

Figura composta dall'autore dal suo strumento PCA (qui).

Introduzione

L’Analisi dei Componenti Principali (PCA) è una tecnica di riduzione della dimensionalità che proietta le variabili di input che descrivono un insieme di oggetti in combinazioni lineari di queste variabili per cercare di massimizzare l’explicazione della varianza nel minor numero possibile di variabili. PCA è molto ampiamente utilizzato per semplificare insiemi di dati complessi.

Per sapere come esattamente funziona PCA, dai un’occhiata a questo:

La Guida Definitiva all’Analisi dei Componenti Principali

Un tutorial che sviluppa il codice a basso livello che puoi modificare ed eseguire nel tuo browser per capire PCA una volta per tutte…

towardsdatascience.com

Ma non sorprende che la tecnica abbia i suoi difetti. Probabilmente già sai o almeno sei inconsciamente consapevole della scarsa interpretabilità dei componenti principali (sono combinazioni lineari delle caratteristiche del dato originale, ma queste combinazioni non sono facili da interpretare), e del compromesso innato tra perdita di informazione e riduzione della dimensionalità (che inevitabilmente influenza tutti i metodi di riduzione della dimensionalità, in misura maggiore o minore). Inoltre, PCA, ovviamente, assume relazioni lineari tra le variabili di input e non è robusto (per niente!) rispetto agli outlier. Dal lato pratico, inoltre, PCA può essere applicato solo a variabili continue e non può essere calcolato con dati mancanti.

Ora, una nuova limitazione che non è così ovvia è stata appena rivelata.

Proprio questa settimana, un articolo pubblicato su PNAS riporta che PCA produce “oscillazioni fantasma”, cioè pattern che appaiono nei dati elaborati anche se non esistono nell’insieme di dati originale, come conseguenza matematica del modo in cui PCA è calcolato. Il lavoro…