3 Casi d’uso per il Modello di Mistura Gaussiana (GMM)

3 Casi d'uso per GMM

Feature engineering, classificazione non supervisionata e rilevamento delle anomalie con la versatilità dell’algoritmo GMM

Il Gaussian Mixture Model (GMM) è un algoritmo di classificazione non supervisionata semplice ma potente, che si basa sulle istruzioni del K-means per prevedere la probabilità di classificazione per ogni istanza. Questa proprietà del GMM lo rende versatile per molte applicazioni. In questo articolo, discuterò come il GMM può essere utilizzato nell’ingegneria delle caratteristiche, nella classificazione non supervisionata e nel rilevamento delle anomalie.

Cosa sono i Gaussian Mixture Model (GMM)?

Descrizione del Modello

Mentre la distribuzione gaussiana di una o più variabili di un set di dati cerca di rappresentare probabilisticamente l’intera popolazione, il GMM fa l’assunzione che esistano sotto-popolazioni nel set di dati e ognuna segua la propria distribuzione normale. In modo non supervisionato, il GMM cerca di apprendere le sotto-popolazioni all’interno dei dati e la loro rappresentazione probabilistica di ogni punto dati [1]. Questa proprietà del GMM ci permette di utilizzare il modello per trovare punti che hanno una bassa probabilità di appartenere a qualsiasi sotto-popolazione e, quindi, categorizzare tali punti come outliers.

Il GMM estende essenzialmente la distribuzione gaussiana multivariata per adattarsi al caso delle sotto-popolazioni utilizzando componenti per rappresentare tali sotto-popolazioni e modifica la funzione di distribuzione di probabilità multivariata per adattarsi alle componenti. Come gentile promemoria, la funzione di densità di probabilità della gaussiana multivariata appare così:

Nel GMM, la probabilità di ogni istanza viene modificata per essere la somma delle probabilità di tutte le componenti e i pesi delle componenti sono parametrizzati come 𝜙. Il GMM richiede che la somma di tutti i pesi delle componenti sia 1, in modo da poter trattare ciascuna componente come un rapporto del tutto. Il GMM incorpora anche le medie e le varianze delle caratteristiche per ciascuna componente. Il modello appare così:

Formulazione del modello GMM

Osserva le analogie tra la distribuzione multivariata e il GMM. In sostanza, l’algoritmo GMM trova il peso corretto per ogni componente rappresentato come una distribuzione gaussiana multivariata. In questo post, Oscar Contreras Carrasco fornisce una fantastica derivazione del GMM [2].