7 Modi per Creare una Matrice di Correlazione in Python
7 Modi per Creare una Matrice di Correlazione in Python' -> '7 Modi per Creare Matrice Correlazione in Python
Non essere lo scienziato dei dati che lancia sempre la stessa matrice di correlazione!
Siamo onesti, la semplice matrice di correlazione è noiosa. Così come lo è il pairplot, sempre popolare. Utile, ma noioso. Senza odiare i dessert alla vaniglia 🍦 🍨 🍦 🍨 🍦
Se sei d’accordo, questo articolo fa al caso tuo: ti aiuterà a fare un passo avanti e diversificare il tuo gioco con la matrice di correlazione.
Le matrici di correlazione sono strumenti fondamentali per l’analisi dei dati. Ci permettono di capire come diverse variabili sono correlate tra di loro. Ecco dieci metodi per creare una matrice di correlazione in Python, utilizzando diverse librerie e dataset.
1) Utilizzando Pandas
Probabilmente l’opzione più semplice. È semplice perché richiede solo un semplice metodo su qualsiasi oggetto DataFrame di Pandas. Poiché la maggior parte di noi nel campo della scienza dei dati utilizza Pandas per i nostri dati, questa è spesso una delle modalità più veloci e facili per ispezionare le correlazioni dei tuoi dati.
- 15 migliori suggerimenti di ChatGPT per Twitter (X)
- Ottimizza i carichi di lavoro di intelligenza artificiale generativa per la sostenibilità ambientale
- Come United Airlines ha costruito un efficiente flusso di lavoro di apprendimento attivo per il riconoscimento ottico dei caratteri a costo ridotto
import pandas as pdimport seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr(numeric_only=True)correlation_matrix
Potresti chiederti “dove sono i valori p?” Se lo stai facendo (come faccio io quando vedo questo output), leggi fino alla fine di questo articolo per consigli su come riportare anche quei valori p.
2) Utilizzando NumPy
Quando hai bisogno di una semplice matrice e non hai bisogno di etichette di colonne o righe.
import seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr()sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
Per un risultato simile al seguente.
array([[ 1. , -0.8051, -0.7784, -0.8322, 0.4233], [-0.8051, 1. , 0.8972, 0.9329, -0.5438], [-0.7784, 0.8972, 1. , 0.86453, -0.6891], [-0.8322, 0.9329, 0.86453, 1. , -0.4168], [ 0.4233, -0.5438, -0.6891, -0.4168, 1. ]])