Rilevamento della multicollinearità nei set di dati mediante test statistici.

Rilevare la multicollinearità nei set di dati attraverso test statistici.

Rilevare la multicollinearità in insiemi di dati è un passaggio importante ma anche sfida. Mostrerò come rilevare variabili con comportamenti simili in insiemi di dati misti e come analizzare le relazioni più in profondità con grafici interattivi.

Foto di Erol Ahmed su Unsplash

Comprendere la forza delle relazioni tra le variabili in un insieme di dati è importante perché le variabili con comportamenti statisticamente simili possono influenzare l’affidabilità dei modelli. Per rimuovere la cosiddetta multicollinearità possiamo utilizzare misure di correlazione per variabili continue. Tuttavia, quando abbiamo anche variabili categoriali e quindi insiemi di dati misti, diventa ancora più difficile testare la multicollinearità. Test statistici, come il test ipergeometrico e il test di Mann-Whitney U, possono essere utilizzati per testare le associazioni tra variabili in insiemi di dati misti. Sebbene ciò sia ottimo, richiede vari passaggi intermedi come la codifica delle variabili, la codifica one-hot e le correzioni di test multiple, tra gli altri. Tutto questo processo è facilmente implementato in un metodo chiamato HNet. In questo articolo, mostrerò come rilevare variabili con comportamenti simili in modo che la multicollinearità possa essere facilmente identificata.

La comprensione dei dati è un passaggio cruciale.

I dati del mondo reale spesso contengono misurazioni con valori continui e discreti. Dobbiamo esaminare ogni variabile e utilizzare il buon senso per determinare se le variabili possono essere correlate tra loro. Ma quando ci sono decine (o più) di variabili, dove ogni variabile può avere più stati per categoria, diventa impegnativo e suscettibile di errori verificare manualmente tutte le variabili. Possiamo automatizzare questo compito eseguendo intensivi passaggi di pre-elaborazione, insieme a metodi di test statistici. Qui entra in gioco HNet [1, 2], che utilizza test statistici per determinare le relazioni significative tra tutte le variabili in un set di dati. Consente di inserire i tuoi dati grezzi non strutturati nel modello e produce una rete che mette in luce le complesse relazioni tra le variabili. Passiamo alla sezione successiva, in cui spiegherò come rilevare variabili con comportamenti simili utilizzando il…