Perché è importante la ridimensionamento delle caratteristiche nel Machine Learning? Discussione su 6 tecniche di ridimensionamento delle caratteristiche

Importanza del ridimensionamento delle caratteristiche nel Machine Learning 6 tecniche di ridimensionamento.

Standardizzazione, Normalizzazione, Scalatura Robusta, Normalizzazione Media, Scalatura Massima Assoluta e Scalatura della Lunghezza del Vettore Unitario

Foto di Mediamodifier su Unsplash

Molti algoritmi di machine learning richiedono che le caratteristiche siano sulla stessa scala.

Esistono diversi tipi di metodi di ridimensionamento delle caratteristiche che possiamo scegliere in vari scenari. Hanno nomi diversi (tecnici). Il termine Feature Scaling si riferisce semplicemente a uno qualsiasi di questi metodi.

Argomenti------1. Ridimensionamento delle caratteristiche in diversi scenari   a. Ridimensionamento delle caratteristiche in PCA   b. Ridimensionamento delle caratteristiche in k-means   c. Ridimensionamento delle caratteristiche in KNN e SVM   d. Ridimensionamento delle caratteristiche nei modelli lineari   e. Ridimensionamento delle caratteristiche nelle reti neurali   f. Ridimensionamento delle caratteristiche nella convergenza   g. Ridimensionamento delle caratteristiche negli algoritmi basati sugli alberi   h. Ridimensionamento delle caratteristiche in LDA2. Metodi di ridimensionamento delle caratteristiche   a. Standardizzazione   b. Scalatura Min-Max (Normalizzazione)   c. Scalatura Robusta   d. Normalizzazione Media   e. Scalatura Massima Assoluta   f. Scalatura della Lunghezza del Vettore Unitario3. Ridimensionamento delle caratteristiche e distribuzione dei dati4. Perdita di dati durante il ridimensionamento delle caratteristiche5. Riepilogo dei metodi di ridimensionamento delle caratteristiche

Ridimensionamento delle caratteristiche in diversi scenari

  • Ridimensionamento delle caratteristiche in PCA: Nell’analisi delle componenti principali, le componenti PCA sono altamente sensibili alle differenze di scala relative delle caratteristiche originali, se non sono misurate sulla stessa scala. PCA cerca di scegliere le componenti che massimizzano la varianza dei dati. Se la massimizzazione avviene a causa di range più ampi di alcune caratteristiche, tali caratteristiche potrebbero tendere a dominare il processo di PCA. In questo caso, la vera varianza potrebbe non essere catturata dalle componenti. Per evitare ciò, di solito eseguiamo il ridimensionamento delle caratteristiche prima di PCA. Tuttavia, ci sono due eccezioni. Se non c’è una differenza significativa nella scala tra le caratteristiche, ad esempio, una caratteristica varia tra 0 e 1 e un’altra varia tra 0 e 1,2, non è necessario eseguire il ridimensionamento delle caratteristiche, anche se non ci sarebbe alcun danno se lo facessimo! Se esegui PCA decomponendo la matrice di correlazione invece della matrice di covarianza, non è necessario eseguire il ridimensionamento delle caratteristiche anche se le caratteristiche non sono misurate sulla stessa…