Introduzione alla regressione logistica in PySpark

Introduzione alla regressione logistica con PySpark

Tutorial per eseguire il tuo primo modello di classificazione su Databricks

Foto di Ibrahim Rifath su Unsplash

Introduzione

Big Data. Grandi set di dati. Cloud…

Queste parole sono ovunque, ci seguono ovunque e sono nei pensieri dei clienti, intervistatori, manager e direttori. Man mano che i dati diventano sempre più abbondanti, i set di dati aumentano solo in dimensioni in modo tale che, a volte, non è possibile eseguire un modello di machine learning in un ambiente locale – in una singola macchina, in altre parole.

Questo problema ci obbliga ad adattarci e trovare altre soluzioni, come la modellazione con Spark, che è una delle tecnologie più utilizzate per il Big Data. Spark accetta linguaggi come SQL, Python, Scala, R e ha i suoi metodi e attributi, inclusa la sua libreria di Machine Learning [MLlib]. Quando si lavora con Python in Spark, ad esempio, viene chiamato PySpark.

Inoltre, c’è una piattaforma chiamata Databricks che avvolge Spark in uno strato molto ben creato che consente ai data scientist di lavorarci come Anaconda.

Quando stiamo creando un modello di Machine Learning in Databricks, accetta anche modelli Scikit Learn, ma poiché siamo più interessati al Big Data, questo tutorial è completamente creato utilizzando MLlib di Spark, che è più adatto per grandi set di dati e allo stesso tempo aggiungiamo uno strumento nuovo al nostro set di competenze.

Cominciamo.

Dataset

Il dataset per questo esercizio è già presente in Databricks. È uno dei dataset UCI, Adults, che è un estratto da un censimento ed è contrassegnato con individui che guadagnano meno o più di $50k all’anno. I dati sono pubblicamente disponibili a questo indirizzo: https://archive.ics.uci.edu/dataset/2/adult

Il nostro tutorial consiste nel costruire un classificatore binario che indica se una persona guadagna meno o più di $50k all’anno.

Codifica

In questa sezione, passiamo attraverso ogni passo del nostro modello.

Ecco i moduli che dobbiamo importare.

from pyspark.sql.functions import colfrom pyspark.ml.feature import UnivariateFeatureSelectorfrom pyspark.ml.feature import RFormulafrom pyspark.ml.feature import StringIndexer, VectorAssemblerfrom pyspark.ml import...