130 trucchi e risorse di ML selezionati attentamente da 3 anni (più eBook gratuito)

130 trucchi e risorse di ML selezionati attentamente da 3 anni (più eBook gratuito)' can be condensed to '130 trucchi e risorse di ML selezionati da 3 anni (eBook gratuito incluso)

Ognuno di essi vale il tuo tempo

Immagine di me con Midjourney. Tutte le altre immagini e GIF sono state generate da me a meno che non venga specificato diversamente.

Introduzione

Ci sono due tipi di trucchi in data science e machine learning: trucchi rari e molto cool. Sono progettati per attirare la tua attenzione, ma alla fine non li userai mai perché i loro casi d’uso sono troppo limitati. Pensate a quelle righe di codice Python che sono terrificanti in termini di leggibilità.

Nella seconda categoria ci sono trucchi rari, cool e così utili che inizierai immediatamente a utilizzarli nel tuo lavoro.

Nel corso dei miei tre anni di esperienza con i dati, ho raccolto oltre 100 trucchi e risorse che rientrano nella seconda categoria (a volte potrebbe esserci un piccolo sovrapposizione con la prima categoria) e li ho curati in un libro online – Tricking Data Science.

Anche se ci sono più di 200 elementi nel libro online e sono organizzati in modo ordinato, ho selezionato i migliori 130 in un solo articolo perché VoAGI offre un’esperienza di lettura molto migliore.

Per favore, goditi!

Nel caso in cui tu voglia saltare direttamente al libro senza leggere l’intero articolo – voglio dire, per 50 minuti, chi lo farebbe? – ti chiederei di lasciare 50 applausi e di seguirmi prima di farlo 🙂

Trucchi

1. Importanza delle permutazioni con ELI5

L’importanza delle permutazioni è uno dei modi più affidabili per vedere le caratteristiche importanti in un modello.

I suoi vantaggi:

  1. Funziona su qualsiasi struttura di modello
  2. Facile da interpretare e implementare
  3. Coerente e affidabile

L’importanza delle permutazioni di una caratteristica è definita come il cambiamento delle prestazioni del modello quando quella caratteristica viene mescolata casualmente.

L’importanza delle permutazioni è disponibile tramite il pacchetto eli5. Di seguito sono riportati i punteggi di importanza delle permutazioni per un modello di regressione XGBoost👇

La funzione show_weights visualizza le caratteristiche che danneggiano di più le prestazioni del modello dopo essere state mescolate – cioè le caratteristiche più importanti.