Densità Kernel Depth per la rilevazione dei valori anomali nei dati funzionali

Utilizzo della Densità Kernel Depth per individuare i valori anomali nei dati funzionali

 

Introduzione 

 

Nell’era attuale di enormi insiemi di dati e complessi modelli di dati, l’arte e la scienza del rilevamento di anomalie, o outlier, sono diventate più sfumate. Mentre le tecniche tradizionali di rilevamento degli outlier sono ben equipaggiate per affrontare dati scalari o multivariati, i dati funzionali – che comprendono curve, superfici o qualsiasi cosa in un continuo – presentano sfide uniche. Una delle tecniche innovative sviluppate per affrontare questo problema è il metodo ‘Density Kernel Depth’ (DKD).

In questo articolo, approfondiremo il concetto di DKD e le sue implicazioni nel rilevamento degli outlier per i dati funzionali dal punto di vista di un data scientist.

 

1. Comprendere i dati funzionali

 

Prima di affrontare le complessità del DKD, è fondamentale comprendere cosa comportino i dati funzionali. A differenza dei punti dati tradizionali che sono valori scalari, i dati funzionali consistono di curve o funzioni. Pensate ad avere un’intera curva come un singolo dato di osservazione. Questo tipo di dati si verifica spesso in situazioni in cui le misurazioni vengono effettuate in modo continuo nel tempo, come le curve di temperatura in un giorno o le traiettorie dei mercati azionari.

Dato un insieme di dati di n curve osservate su un dominio D, ogni curva può essere rappresentata come:

 

2. La sfida del rilevamento degli outlier nei dati funzionali

 

Per i dati scalari, potremmo calcolare la media e la deviazione standard e determinare gli outlier in base ai punti dati che si trovano a un certo numero di deviazioni standard dalla media.

Per i dati funzionali, questo approccio è più complicato perché ogni osservazione è una curva.

Un approccio per misurare la centralità di una curva è calcolare la sua “profondità” rispetto ad altre curve. Ad esempio, utilizzando una misura di profondità semplice:

Dove n è il numero totale di curve.

Sebbene quanto sopra sia una rappresentazione semplificata, nella realtà i dataset funzionali possono consistere in migliaia di curve, rendendo difficile il rilevamento visivo degli outlier. Formulazioni matematiche come la misura di profondità forniscono un approccio più strutturato per valutare la centralità di ogni curva e potenzialmente individuare gli outlier.

In uno scenario pratico, sarebbero necessari metodi più avanzati, come il Density Kernel Depth, per determinare in modo efficace gli outlier nei dati funzionali.

 

3. Come funziona DKD

 

DKD funziona confrontando la densità di ciascuna curva in ogni punto con la densità complessiva dell’intero dataset in quel punto. La densità viene stimata utilizzando metodi di kernel, che sono tecniche non parametriche che consentono la stima delle densità in strutture dati complesse.

Per ogni curva, il DKD valuta la sua “non conformità” in ogni punto ed integra questi valori sull’intero dominio. Il risultato è un singolo numero che rappresenta la profondità della curva. Valori inferiori indicano potenziali outlier.

La stima della densità del kernel nel punto t per una determinata curva Xi?(t) è definita come:

Dove:

  • K (.) è la funzione del kernel, spesso una funzione gaussiana.
  • h è il parametro della larghezza di banda.

La scelta della funzione del kernel K (.) e della larghezza di banda h può influenzare significativamente i valori del DKD:

  • Funzione del Kernel: i kernel gaussiani sono comunemente utilizzati per le loro proprietà di smorzamento.
  • Larghezza di Banda: Determina la scorrevolezza dell’estimatore di densità. I metodi di convalida incrociata sono spesso utilizzati per selezionare un h ottimale.

 

3. Calcolo della Profondità del Kernel della Densità

 

La profondità della curva Xi?(t) in un punto t rispetto all’intero set di dati viene calcolata come:

dove:

 

Il valore di DKD risultante per ogni curva fornisce una misura della sua centralità:

  • Le curve con valori DKD più alti sono più centrali per il set di dati.
  • Le curve con valori DKD più bassi sono potenziali outlier.

 

4. Vantaggi dell’Utilizzo del DKD nell’Analisi dei Dati Funzionali

 

Flessibilità: DKD non fa forti assunzioni sulla distribuzione sottostante dei dati, rendendolo versatile per varie strutture di dati funzionali.

Interpretabilità: Fornendo un valore di profondità per ogni curva, DKD rende intuitivo comprendere quali curve sono centrali e quali sono potenziali outlier.

Efficienza: Nonostante la sua complessità, DKD è efficiente dal punto di vista computazionale, rendendolo fattibile per grandi set di dati funzionali.

 

5. Implicazioni Pratiche

 

Immagina uno scenario in cui un data scientist sta analizzando le curve del battito cardiaco dei pazienti in 24 ore. Un’analisi tradizionale degli outlier potrebbe identificare come outlier letture occasionali di battito cardiaco elevate. Tuttavia, con l’analisi dei dati funzionali utilizzando DKD, è possibile individuare intere curve anomale del battito cardiaco, che potrebbero indicare aritmie e offrire una visione più olistica della salute del paziente.

 

 Conclusioni

 

Man mano che i dati continuano a crescere in complessità, gli strumenti e le tecniche per analizzarli devono evolvere parallelamente. La Density Kernel Depth offre un approccio promettente per esplorare il complesso panorama dei dati funzionali, garantendo che i data scientist possano individuare con fiducia gli outlier e derivare da essi significativi spunti di analisi. Mentre DKD è solo uno dei molti strumenti nell’arsenale di un data scientist, il suo potenziale nell’analisi dei dati funzionali è indiscutibile e sta aprendo la strada a tecniche di analisi sempre più sofisticate in futuro.

[Kulbir Singh](https://www.linkedin.com/in/kulbirsingh8) è un distinto leader nel campo dell’analisi dei dati e della scienza dei dati, vantando oltre due decenni di esperienza nella tecnologia dell’informazione. La sua competenza è multifacetata, comprendendo leadership, analisi dei dati, apprendimento automatico, intelligenza artificiale (AI), progettazione di soluzioni innovative e risoluzione dei problemi. Attualmente, Kulbir ricopre il ruolo di Health Information Manager presso Elevance Health. Appassionato dell’avanzamento dell’intelligenza artificiale (AI), Kulbir ha fondato AIboard.io, una piattaforma innovativa dedicata alla creazione di contenuti educativi e corsi incentrati sull’AI e sulla sanità.