Sfruttare le funzioni analitiche in SQL per l’estrazione più rapida dei dati
Utilizzare le funzioni analitiche SQL per l'estrazione veloce dei dati
Le funzioni analitiche forniscono un modo incredibilmente potente eppure facile da attuare per elaborare e analizzare i dati. Questo post ti mostrerà come incorporare le funzioni analitiche nei tuoi statement SQL.
Come professionista dell’analisi dei dati, è probabile che ti troverai in una situazione in cui dovrai interrogare i dati per la tua analisi. Molto spesso, i dati vengono ottenuti da un database SQL e quindi importati tramite un linguaggio di programmazione come Python utilizzando potenti framework come Pandas o NumPy. Questa è una pipeline perfettamente funzionante per lavorare con i dati, tuttavia, il lavoro pesante è principalmente svolto dal tuo computer locale. Con piccoli set di dati, questo non è un problema, ma quando si tratta di set di dati più grandi, potresti incontrare problemi nel gestire l’elaborazione intensiva esclusivamente nella memoria locale del PC.
Potresti pensare che questo non sia un problema comune. Quindi, lascia che ti dia un esempio quotidiano per dimostrare che questa supposizione è errata:
Immagina di lavorare in un’azienda manifatturiera e di essere interessato a raccogliere i dati dei sensori delle macchine. Questi dati vengono spesso raccolti frequentemente e potrebbero anche essere piuttosto rumorosi. Per capire meglio cosa sta succedendo con la tua macchina, lisciare e pre-elaborare i dati raccolti in modo denso (ad esempio, le misurazioni potrebbero essere raccolte diverse volte al secondo) porta rapidamente a dimensioni immense del dataset! Supponiamo di avere 150 sensori posizionati accanto a una macchina, e ognuno di essi legge 4 misurazioni al secondo. Un singolo giorno produrrebbe
4x60x60x24x150 ≈ 52 milioni di record (Letture x Secondi x Minuti x Ore x Sensori)
- Crea un rilevatore di spam per email utilizzando Amazon SageMaker
- Come ho creato un’animazione degli embeddings durante il fine-tuning
- L’impronta di carbonio di GPT-4
punti dati. Di solito, come regola generale, guardiamo almeno una settimana di dati (ma potremmo anche aumentare le letture o addirittura il numero di sensori)… vedi dove sta andando.
Per questo motivo, potresti essere più avvantaggiato nel spostare le tue aggregazioni computazionalmente costose nel database di origine. In particolare, le funzioni analitiche o di finestra sono semplici nella loro sintassi, ma sono uno strumento potente per leggere, trasformare ed estrarre dati su un livello più aggregato.
L’essenza principale:
Ogni volta che hai bisogno di una finestra mobile o di calcoli all’interno di una partizione logica (ad esempio, classificazione continua, valore più basso o più alto, all’interno di un certo gruppo di sensori), ne vale certamente la pena…