L’ottimizzazione dietro SVM Forma Primale e Duale

Ottimizzazione SVM Primale e Duale

Chiunque abbia cliccato su questo link sa già cosa sono le SVM, ma credimi, c’è molto in svolgimento sullo sfondo.

Comprendere le forme duale e primale dell’ottimizzazione delle SVM è fondamentale per gli scienziati dei dati nel campo del machine learning. Ciò fornisce loro una comprensione fondamentale di come funzionano le SVM, consentendo loro di interpretare e spiegare i risultati ottenuti dai modelli SVM. Inoltre, questa conoscenza aiuta nella selezione e personalizzazione degli algoritmi, consentendo agli scienziati dei dati di scegliere l’approccio di ottimizzazione più adatto in base a fattori come la dimensione del set di dati e i vincoli computazionali. Inoltre, la comprensione delle forme duale e primale aiuta nella messa a punto degli iperparametri, nell’interpretazione avanzata dei modelli e nell’ottimizzazione dell’efficienza computazionale degli algoritmi SVM.

Quindi, allacciate le cinture perché questo viaggio avrà molte equazioni matematiche.

NOTA: Tutte le immagini appartengono all’autore.

Le SVM sono definite in due modi: una è la forma duale e l’altra è la forma primale. Entrambi ottengono lo stesso risultato di ottimizzazione, ma il modo in cui lo ottengono è molto diverso. Prima di addentrarci nella matematica, lasciatemi dire quale viene utilizzato quando. La modalità primale è preferita quando non è necessario applicare il trucco del kernel ai dati e il set di dati è grande ma la dimensione di ciascun punto dati è piccola. La forma duale è preferita quando i dati hanno una grande dimensione e dobbiamo applicare il trucco del kernel.

Cerchiamo di massimizzare la distanza dell'iperpiano dai punti più vicini

Capiamo cosa facciamo effettivamente nelle SVM. Nell’ottimizzazione delle SVM, cerchiamo di massimizzare la distanza tra l’iperpiano e i vettori di supporto, che è uguale a minimizzare la norma L2 di W (matrice dei pesi). Mentre analizzeremo la matematica, definiremo cosa è effettivamente un vettore di supporto. Ma come massimizzare la distanza corrisponde a minimizzare la matrice dei pesi?

• Il margine tra le classi è uguale a 2 / ||w||_2.

• Minimizzare ||w||_2 corrisponde a massimizzare il margine.

• Nota che: w’ x1 + b = 1 e w’x2 + b = − 1

⇒ w’(x1* − x2*) = 2 ⇒ w’( x1* − x2*)/||w||_2 = 2 /||w||_2

qui x1* e x2* sono i punti più vicini all’interno degli iperpiani delle due diverse classi e ||w||_2 è la norma L2 della matrice dei pesi.