Filtraggio dei dati in Julia tutto ciò che devi sapere

Filtraggio dati in Julia - tutto ciò che devi sapere

Tutto quello che devi sapere quando si tratta di filtrare i dati in Julia

Foto di Najib Kalil su Unsplash

Quando si tratta di Data Science, eseguire test di ipotesi, machine-learning e anche analisi, il componente più importante per ottenere risultati è avere buoni dati. Ci sono molteplici requisiti diversi per i dati che spesso devono essere imposti su quei dati. Una tecnica estremamente comune e frequentemente utilizzata nel mondo dei dati è il filtraggio dei dati. Il filtraggio dei dati può essere il processo di rimozione dei componenti dei dati che non appartengono o il processo di prendere un campione che soddisfa un certo parametro o un certo numero di parametri.

Potremmo dire che un esempio di rimozione dei dati quando non appartengono al filtraggio è quando rimuoviamo i valori mancanti dai nostri dati. Questo è un passaggio essenziale nel processo di Data Science ed è spesso fatto con tecniche di filtraggio. Un esempio di prelevare un campione che soddisfa alcuni parametri stabiliti sarebbe se stessimo cercando di testare la significatività statistica tra essere alti e sbattere la testa. Filtreremmo tutti i dati in cui le persone sono basse in modo da avere dati esclusivamente di persone alte da testare.

Ci sono numerose applicazioni di questa tecnica. Il filtraggio può essere anche essenziale per eseguire alcune comuni attività di Data Science, quindi è sicuramente qualcosa di cui essere consapevoli. Per fortuna, il filtraggio in Julia è relativamente semplice. Se desideri provare il codice in questo articolo, ecco un link a questa panoramica in formato notebook:

Emmetts-DS-NoteBooks/Julia/filtraggio dei dati in julia.ipynb su master · emmettgb/Emmetts-DS-NoteBooks

Quaderni casuali per vari progetti. Contribuisci allo sviluppo di emmettgb/Emmetts-DS-NoteBooks creando un account…

github.com

Per capire davvero il filtraggio in Julia, ci sono alcune cose diverse che dobbiamo conoscere. Spesso verranno fornite funzioni anonime come argomenti, anche se qualsiasi forma di funzione come argomento, inclusa la sintassi do, è possibile. In alcuni casi, potremmo anche utilizzare un tipo di Vector chiamato BitArray.

BitArray

Un BitArray è un Vector che contiene solo valori di tipo Bool. In Julia, Array è semplicemente un alias per Vector. In generale…