Un’Analisi Completa dei Dati Esplorativi in Python

Un'Analisi Completa dei Dati Esplorativi Utilizzando Python

Foto di NEOM su Unsplash

Pulizia dei dati, Analisi, Visualizzazione, Selezione delle caratteristiche, Modellazione predittiva

Ho alcuni tutorial sull’Analisi esplorativa dei dati prima. Ma sento che dovrei farne di più. Prendere un dataset ed esplorarlo, fare la pulizia dei dati, l’analisi, la visualizzazione e il modello di previsione tutto in un’unica soluzione è necessario. Come Data Scientist o Data Analyst, potremmo dover lavorare con dati molto strani, a volte potremmo non capire correttamente le caratteristiche ma questo non dovrebbe impedirci di fare il nostro lavoro. È meglio conoscere molto bene le caratteristiche. Ma se queste informazioni non sono disponibili, la parte di analisi non dovrebbe comunque soffrire.

In questo articolo, lavorerò su un dataset che ho preso da Kaggle. La maggior parte di noi potrebbe non comprendere le caratteristiche o i nomi delle colonne. Ma vediamo cosa possiamo fare con esso.

Ci concentreremo su:

  1. Comprensione di base del dataset.
  2. Brainstorming e ottenere un’idea generale del dataset a un livello più approfondito attraverso qualche visualizzazione.
  3. Trovare modi per ottenere informazioni specifiche derivate dalla visualizzazione di base nei passaggi precedenti.
  4. Modellazione predittiva.

Per favore, sentiti libero di scaricare il dataset da questo link:

Florida_Subsidence_Incident_Reports csv-file (kaggle.com)

Le importazioni necessarie prima:

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns

Utilizzando i dati per creare un DataFrame di Pandas:

pd.set_option('display.max_columns', 100)
df1 = pd.read_csv('Florida_Subsidence_Incident_Reports.csv')

Il dataset è troppo grande. Quindi, non sto mostrando una anteprima qui. Questi sono i nomi delle colonne del dataset:

Index(['X', 'Y', 'OBJECTID', 'REF_NUM', 'DATE_REV', 'EVENT_DATE', 'TRUE_SINK',       'LONGDD', 'LATDD', 'COUNTY', 'TWNSHP', 'TWNSHP_D', 'RANGE', 'RANGE_D',       'SECTION', 'QTRSECT1', 'QTRSECT2', 'ACCURACY', 'RPT_SOURCE', 'RPT_NAME',       'OCITY', 'OZIP', 'SIZDIM', 'SINSHAPE', 'SINLNGTH', 'SINWIDTH',       'SINDEPTH', 'SLOPE', 'WATSIN', 'WATBLS', 'LIMVIS'…