Le previsioni approssimative rendono la selezione delle caratteristiche radicalmente più veloce

Le previsioni approssimative fanno accelerare radicalmente la selezione delle caratteristiche

La selezione delle caratteristiche è così lenta perché richiede la creazione di molti modelli. Scopri come renderla incredibilmente più veloce grazie alle previsioni approssimative

[Immagine dell'autore]

Quando si sviluppa un modello di apprendimento automatico, di solito si inizia con un grande insieme di caratteristiche ottenute dai nostri sforzi di ingegneria delle caratteristiche.

La selezione delle caratteristiche è il processo di scegliere un sottoinsieme più piccolo di caratteristiche ottimali per il nostro modello di apprendimento automatico.

Perché fare ciò anziché mantenere tutte le caratteristiche?

  • Memoria. I dati grandi occupano molto spazio. Eliminare le caratteristiche significa avere bisogno di meno memoria per gestire i dati. A volte ci sono anche vincoli esterni.
  • Tempo. Addestrare un modello su meno dati può risparmiare molto tempo.
  • Accuratezza. Meno è di più: questo vale anche per l’apprendimento automatico. Includere caratteristiche ridondanti o non rilevanti significa includere rumore superfluo. Spesso accade che un modello addestrato su meno dati produca risultati migliori.
  • Spiegabilità. Un modello più piccolo è più facilmente spiegabile.
  • Debugging. Un modello più piccolo è più facile da mantenere e risolvere i problemi.

Ora, il problema principale della selezione delle caratteristiche è che è molto lenta perché richiede l’addestramento di molti modelli.

In questo articolo, vedremo un trucco che rende la selezione delle caratteristiche estremamente più veloce grazie alle “previsioni approssimative”.

Un problema molto difficile

Cerchiamo di visualizzare il problema della selezione delle caratteristiche. Partiamo da N caratteristiche, dove N è tipicamente centinaia o migliaia.

Quindi, il risultato della selezione delle caratteristiche può essere visto come un array di lunghezza N composto da “sì” / “no”, dove ogni elemento dell’array indica se la caratteristica corrispondente è selezionata o meno.

Risultato della selezione delle caratteristiche. [Immagine dell'autore]

Il processo di selezione delle caratteristiche consiste nel provare diversi “candidati” e infine scegliere il migliore (in base alla nostra metrica di prestazione).