Scegliere un formato per il Data Lake Cosa cercare effettivamente

Scelta del formato del Data Lake cosa cercare effettivamente

Recentemente abbiamo visto molti post su una varietà di diversi formati di file per i data lake. Ci sono Delta Lake, Hudi, Iceberg e QBeast, solo per citarne alcuni.

Può essere difficile tenere traccia di tutti questi formati di data lake, figuriamoci capire perché (o se!) abbiamo davvero bisogno di questa vasta selezione e, cosa più importante, quale data lake è il migliore per uno specifico caso d’uso.

La risposta breve: Tutti questi formati speciali di data lake sono orientati a cercare di rendere i tuoi dati direttamente interrogabili.

È una cosa buona da fare, ma non dovrebbe essere lo scopo principale del tuo data lake.

Discutiamo un po’ di tutto ciò: come scegliere il miglior formato di data lake e, allo stesso tempo, perché non dovresti preoccuparti troppo del formato. C’è qualcos’altro che noi – gli ingegneri di Estuary – riteniamo più importante.

E sono curioso di vedere se sarai d’accordo.

Interrogazione Diretta e le Opzioni per il Tuo Data Lake

Esistono molti eccellenti strumenti per eseguire vari tipi di interrogazioni.

Hai cose come Elasticsearch per la ricerca full-text, TimescaleDB per i dati in serie temporali, Pinecone + ChatGPT per fare domande conversazionali sui tuoi dati, PostGIS per i dati geospaziali e molti altri.

Ci sono un enorme numero di sistemi, strategie e algoritmi diversi per l’indicizzazione e l’interrogazione dei dati. E c’è una buona ragione per questo! Il mondo dei dati è enorme. Anche all’interno di aziende piccole o di medie dimensioni, è comune vedere una grande varietà sia nei tipi di dati che si possiedono, sia nei modi in cui si desidera sfruttarli.

Quindi, mentre gli strumenti per l’interrogazione diretta del tuo data lake sono impressionanti e talvolta molto utili, sono al massimo una bella caratteristica aggiuntiva.

Non importa quanto fantastico sia il formato del tuo data lake, non è in grado di battere PostGIS per le interrogazioni geospaziali, o Elasticsearch per la ricerca full-text, o… capisci l’idea. Anche nei casi in cui le interrogazioni dirette contro il data lake possono funzionare, raramente sono il miglior strumento per il lavoro.

Una Caratteristica del Data Lake Più Importante

Quindi, se non ci preoccupiamo dell’interrogazione diretta, come si sceglie – o si progetta, per quel che conta – un data lake?

A livello generale, il mio team e io riteniamo che un data lake dovrebbe prioritizzare le integrazioni rispetto alle capacità di interrogazione.

Al posto di cercare di costruire l’intera infrastruttura intorno a un sistema di archiviazione dati tutto compreso che afferma di fare tutto, è molto più importante che il tuo data lake possa facilitare l’utilizzo dell’ecosistema più ampio di strumenti analitici.

Puoi utilizzare questi strumenti, a loro volta, per fare ciò in cui sono bravi: fare domande sui tuoi dati.

Come Siamo Arrivati a Credere Questo…

La ragione per cui noi di Estuary siamo così convinti delle caratteristiche dei data lake è (hai indovinato) che abbiamo costruito un data lake.

Per coloro che sono nuovi qui: la nostra piattaforma, Flow, è in effetti uno strumento ETL in tempo reale, ma è anche un data lake in tempo reale con supporto transazionale. Quando abbiamo costruito Flow, non abbiamo utilizzato nessuno dei suddetti formati di data lake.

Invece, abbiamo utilizzato JSON delimitato da newline. Abbiamo già scritto in precedenza del motivo per cui JSON è una buona scelta, ma volevo approfondire questo particolare aspetto: la priorità delle integrazioni rispetto all’interrogazione diretta. In poche parole, è questo che rende diverso l’approccio di Flow, sia nel mondo degli ETL che dei data lake.

Sappiamo che per quanto ci sforziamo, non possiamo fornire capacità di interrogazione che siano sufficienti per tutti, o anche per la maggior parte, dei casi d’uso.

Invece, puntiamo fortemente alle integrazioni. Quando utilizzi Flow come tuo data lake, puoi facilmente trasformare i dati dal tuo lake in una varietà in continua crescita di altri sistemi, che vengono mantenuti automaticamente aggiornati in tempo reale.

Ciò facilita l’interrogazione dei tuoi dati utilizzando gli strumenti più adatti al tuo scenario.

Scegliere Effettivamente il Miglior Data Lake Per Te

Prima di iniziare ad accendere le torce, voglio chiarire che interrogare il tuo data lake non è male. Non posso nemmeno dire con certezza che l’approccio delle integrazioni che utilizziamo in Flow sia adatto alle tue esigenze. Sarebbe un po’ presuntuoso, per non parlare dell’impossibilità di determinarlo senza conoscere la tua situazione.

Ci sono molte ragioni per cui l’interrogazione diretta potrebbe essere il miglior approccio per il tuo scenario specifico. Se sei tu, già sai chi sei. Conosci già i tipi di interrogazioni che devi eseguire e i risultati desiderati. Nel tuo caso, la scelta tra le varie forme di data lake presenti sul mercato è semplicemente una questione di confronto delle capacità e di test delle tue interrogazioni.

Ma se stai cercando di ottenere un maggior valore dai tuoi dati in generale, attraverso più domini aziendali, migliorare le prestazioni delle interrogazioni dirette sul data lake probabilmente non ti darà molto.

D’altra parte, rendere più facile spostare i dati in altri sistemi fa una grande differenza. Significa che sei libero di utilizzare il miglior strumento per ogni scenario. Forse ancora più importante, ti dà la libertà di provare diversi sistemi per capire qual è il miglior strumento.

Per te, il mio consiglio per la ricerca del data lake è: non concentrarti troppo sul formato dei dati o sulle capacità di interrogazione. Invece, osserva attentamente le integrazioni e come sposti i dati dentro e fuori dal lake. Otterrai migliori capacità di interrogazione, utenti più soddisfatti e molta più flessibilità.

Hai pensieri su questa discussione sulla scelta di un data lake? Ci piacerebbe sentirli.

Anche se quasi sempre abbiamo i commenti disattivati sul blog (anche una squadra composta principalmente da ingegneri può essere infestata dai bot dei commenti, che stranezza) le nostre porte sono sempre aperte su Slack.

Articolo di Phil Fried, ingegnere presso Estuary