Coraggio di imparare ML Svelando la regolarizzazione L1 e L2 (parte 2)

Osare imparare ML svelando la regolarizzazione L1 e L2 (parte 2)

Svelare l’intuizione dietro la sparsità L1 con i moltiplicatori di Lagrange

Bentornati a “Coraggio per imparare l’Apprendimento Automatico: Svelando L1 e L2 Regularization”, parte due. Nella nostra precedente discussione, abbiamo esplorato i vantaggi dei coefficienti più piccoli e i modi per ottenerli tramite tecniche di penalizzazione del peso. Ora, in questo seguito, il nostro mentore e apprendista si immergeranno ancora più a fondo nel campo della regolarizzazione L1 e L2.

Se avete riflettuto su domande come queste, siete nel posto giusto:

  • Qual è la ragione dietro i nomi L1 e L2 regularization?
  • Come interpretiamo il grafico classico di L1 e L2 regularization?
  • Cos’è un moltiplicatore di Lagrange e come possiamo comprenderne l’intuizione?
  • Applicazione dei moltiplicatori di Lagrange per comprendere la sparsità L1.

Il vostro coinvolgimento – i mi piace, i commenti e i follow – fa più che sollevare il morale; alimenta il nostro viaggio di scoperta! Quindi, immergiamoci.

Foto di Aarón Blanco Tejedor su Unsplash

Perché chiamano L1 e L2 regularization così?

Il nome L1 e L2 regularization deriva direttamente dal concetto delle norme Lp. Le norme Lp rappresentano diversi modi per calcolare le distanze da un punto all’origine in uno spazio. Ad esempio, la norma L1, nota anche come distanza di Manhattan, calcola la distanza utilizzando i valori assoluti delle coordinate, come ∣x∣+∣y∣. Al contrario, la norma L2, o distanza euclidea, la calcola come la radice quadrata della somma dei valori al quadrato, che è sqrt(x² + y²)

Nel contesto della regolarizzazione nell’apprendimento automatico, queste norme vengono utilizzate per creare termini di penalità che vengono aggiunti alla funzione di perdita. Si può pensare alla regolarizzazione Lp come alla misurazione della distanza totale dei pesi del modello dall’origine in uno spazio ad alta dimensione. La scelta della norma influenza la natura di questa penalità: la norma L1 tende a rendere alcuni coefficienti nulli, selezionando efficacemente le caratteristiche più importanti, mentre la norma L2 riduce i coefficienti verso lo zero, garantendo che nessuna singola caratteristica influisca in modo sproporzionato sul modello.

Quindi, la regolarizzazione L1 e L2 prende il nome da queste norme matematiche – L1 norma e L2 norma -…