L’ottimizzazione dietro SVM Forma Primale e Duale
Ottimizzazione SVM Primale e Duale
Chiunque abbia cliccato su questo link sa già cosa sono le SVM, ma credimi, c’è molto in svolgimento sullo sfondo.
Comprendere le forme duale e primale dell’ottimizzazione delle SVM è fondamentale per gli scienziati dei dati nel campo del machine learning. Ciò fornisce loro una comprensione fondamentale di come funzionano le SVM, consentendo loro di interpretare e spiegare i risultati ottenuti dai modelli SVM. Inoltre, questa conoscenza aiuta nella selezione e personalizzazione degli algoritmi, consentendo agli scienziati dei dati di scegliere l’approccio di ottimizzazione più adatto in base a fattori come la dimensione del set di dati e i vincoli computazionali. Inoltre, la comprensione delle forme duale e primale aiuta nella messa a punto degli iperparametri, nell’interpretazione avanzata dei modelli e nell’ottimizzazione dell’efficienza computazionale degli algoritmi SVM.
Quindi, allacciate le cinture perché questo viaggio avrà molte equazioni matematiche.
NOTA: Tutte le immagini appartengono all’autore.
- Async per LangChain e LLMs
- Crea la tua applicazione ChatGPT utilizzando Spring Boot
- EDA con Polars Guida passo-passo alle funzioni di aggregazione e analitiche (Parte 2)
Le SVM sono definite in due modi: una è la forma duale e l’altra è la forma primale. Entrambi ottengono lo stesso risultato di ottimizzazione, ma il modo in cui lo ottengono è molto diverso. Prima di addentrarci nella matematica, lasciatemi dire quale viene utilizzato quando. La modalità primale è preferita quando non è necessario applicare il trucco del kernel ai dati e il set di dati è grande ma la dimensione di ciascun punto dati è piccola. La forma duale è preferita quando i dati hanno una grande dimensione e dobbiamo applicare il trucco del kernel.

Capiamo cosa facciamo effettivamente nelle SVM. Nell’ottimizzazione delle SVM, cerchiamo di massimizzare la distanza tra l’iperpiano e i vettori di supporto, che è uguale a minimizzare la norma L2 di W (matrice dei pesi). Mentre analizzeremo la matematica, definiremo cosa è effettivamente un vettore di supporto. Ma come massimizzare la distanza corrisponde a minimizzare la matrice dei pesi?
• Il margine tra le classi è uguale a 2 / ||w||_2.
• Minimizzare ||w||_2 corrisponde a massimizzare il margine.
• Nota che: w’ x1 + b = 1 e w’x2 + b = − 1
⇒ w’(x1* − x2*) = 2 ⇒ w’( x1* − x2*)/||w||_2 = 2 /||w||_2
qui x1* e x2* sono i punti più vicini all’interno degli iperpiani delle due diverse classi e ||w||_2 è la norma L2 della matrice dei pesi.