Apprendimento automatico comprendere i fini del centratura e della scalatura

Apprendimento automatico comprendere centratura e scalatura

Utilizzo dei trasformatori (MinMaxScaler, StandardScaler, RobustScaler)

Scaling, immagine di Flo su OpenSea

Introduzione

Questo articolo introduce i concetti di centratura e ridimensionamento. Con un caso d’uso reale, spiego i vantaggi di centrare e ridimensionare i dati.

Approfondiamo i calcoli e le spiegazioni semplici guardando i metodi preconfigurati di Scikit-Learn.

Tecnicamente, confrontiamo MinMaxScaler, StandardScaler e RobustScaler. Fanno parte dei metodi dei trasformatori che facilitano la pre-elaborazione.

Alla fine, comprenderai lo scopo di centrare e ridimensionare i dati e sarai pronto a utilizzare i trasformatori preconfigurati di Scikit-Learn.

Cos’è la centratura e il ridimensionamento?

Comprendere i concetti

Il ridimensionamento trasforma i dati in un intervallo o scala specifica, mentre la centratura comporta lo spostamento dei punti dati in modo che la loro media diventi zero. Di seguito un esempio.

Immagine di Flo

Puoi vedere l’effetto del ridimensionamento e della centratura dei dati. Ora, a destra, i dati sono centrati intorno a 0 e si presentano su una scala più breve (assi X e Y).

Vantaggi

Ci sono diversi vantaggi nel centrare e ridimensionare i dati, i più importanti per il ridimensionamento:

  • Migliorare le prestazioni degli algoritmi: Gli algoritmi che utilizzano la distanza come K-Nearest Neighbors (KNN) e K-Means sono sensibili alla distanza tra i dati. Ridurre la scala dei dati per migliorarne le prestazioni.
  • Normalizzare le caratteristiche: Quando un dataset contiene caratteristiche con scale diverse, il ridimensionamento dei dati evita di dare troppa importanza alle caratteristiche con magnitudini più grandi.
  • Migliorare il confronto dei dati: Facilita il confronto dei dati grazie alla loro stessa scala.
  • Prevenire problemi numerici: Il ridimensionamento dei dati può prevenire problemi come l’overflow e l’underflow (quando i numeri sono molto piccoli o grandi).
  • Ridurre l’influenza degli outlier