Parte 1 Creazione passo passo di un ambiente virtuale per eseguire le tue pipeline di dati su sistemi basati su Windows

Creazione di un ambiente virtuale per eseguire le pipeline di dati su sistemi Windows

La mia motivazione per scrivere un post su questo argomento è semplicemente per non dimenticare, e inoltre, il modo migliore per conservare le tue note è condividerle con gli altri. Oltre a ciò, questi post non scompaiono facilmente. Inoltre, puoi trarne vantaggio fornendo feedback, che trovo davvero utile per il miglioramento personale. Le tue opinioni/commenti sono molto apprezzati.

Benefici dell’uso di macchine virtuali per l’esecuzione di pipelines di dati

La creazione di ambienti virtuali utilizzando sistemi come Ubuntu per eseguire le pipeline di dati offre numerosi vantaggi per i data scientist e gli sviluppatori. In primo luogo, fornisce un ambiente sandboxed e isolato, garantendo che le dipendenze e i pacchetti non entrino in conflitto, portando a risultati stabili e riproducibili. In secondo luogo, gli ambienti virtuali consentono un facile testing e debugging senza influire sulle funzionalità core del sistema. In terzo luogo, migliorano la scalabilità, consentendo la distribuzione delle pipeline su diverse macchine e piattaforme cloud. Infine, gli ambienti virtuali semplificano la collaborazione, consentendo ai team di condividere ambienti di sviluppo coerenti e garantendo un’integrazione fluida del flusso di lavoro. In generale, sfruttare gli ambienti virtuali consente ai professionisti dei dati di ottimizzare lo sviluppo delle loro pipeline, aumentare la produttività e accelerare le intuizioni basate sui dati.

Configurazione della VM Ubuntu sul tuo computer locale

  1. Cerca Windows Powershell sul tuo computer locale

2. Digita il comando ‘ssh’ per verificare se è installato. SSH sta per Secure Shell ed è un protocollo di rete crittografico utilizzato per l’accesso remoto sicuro e la comunicazione su reti non sicure. Fornisce un canale sicuro tra due dispositivi, tipicamente un client e un server, consentendo lo scambio di dati ed esecuzione di comandi in modo sicuro.

3. Utilizzando ‘dir’ otterrai la directory dei file e ‘mkdir’ serve per creare una cartella nel sistema. Questi sono i comandi più comuni nei sistemi basati su Linux.

4. Digita ‘wsl’ per verificare se è configurato. È richiesto per l’installazione. WSL sta per Windows Subsystem for Linux. È uno strato di compatibilità in Windows che consente agli utenti di eseguire direttamente una distribuzione Linux su una macchina Windows. Con WSL, puoi accedere ed utilizzare un terminale Linux ed eseguire utilità da linea di comando Linux insieme alle tue applicazioni Windows.

5. ‘wsl –list –online’ mostrerà le distribuzioni valide installate nel tuo sistema

6. Per installare la distribuzione desiderata utilizza ‘wsl –install -d Ubuntu-22.04 (la versione che vuoi installare)

7. Dopo l’installazione, potrebbe essere richiesto o meno di riavviare il computer portatile per completare l’installazione. Ma prima di ciò, se è la prima volta, potrebbe essere richiesto di impostare un nome utente e una password Unix. Quindi il processo dovrebbe essere completo.

8. Per assicurarti dell’installazione, digita ‘uname -a’ per confermare i dettagli di installazione.

9. Nella tua powershell cli digita ‘wsl -l -v’ per vedere quali sono in esecuzione o fermati. Per riavviare la macchina virtuale digita ‘wsl -d Ubuntu-22.04 (macchina che vuoi avviare)

Lavorare con Docker

  1. Cerca il desktop Docker e segui le istruzioni di installazione. Sono piuttosto semplici.

Validare Docker su Windows utilizzando la riga di comando con PowerShell

  1. Utilizza il comando ‘docker run hello-world’ per verificare se l’installazione è stata completata con successo
  2. Il comando ‘docker images’ ti darà le immagini nel tuo container
  3. Il comando ‘docker ps -a’ serve per vedere le informazioni sull’esecuzione del container
  4. Il comando ‘docker rm container_id’ serve per interrompere l’immagine in esecuzione

Portarli tutti insieme

  1. Eseguendo il comando ‘docker run -i -t –rm ubuntu bash’, verranno impostate le risorse come container docker basato su Ubuntu e grazie a ‘–rm’, una volta chiuso, il container verrà automaticamente eliminato.
container basato su Ubuntu avviato in Docker Desktop

2. Quando sei nell’immagine del container, se esegui ‘free -h’ otterrai le informazioni sulla memoria e altre informazioni utili quando lavori localmente sulla tua macchina.

Installazione di Python e distills su Windows utilizzando wsl Ubuntu

  1. Per scopi di sviluppo, verrà utilizzato Python 3.9, e la versione che stiamo cercando qui è la python 3.9 per Ubuntu.
  2. Quando sei nell’ambiente Ubuntu nel tuo power shell, copia e incolla i comandi qui sotto uno per uno:
1. Aggiorna l'elenco dei pacchetti e installa le dipendenze:sudo apt updatesudo apt install software-properties-common 2. Aggiungi la PPA di deadsnakes all'elenco delle fonti del tuo sistema:sudo add-apt-repository ppa:deadsnakes/ppa 3. Aggiorna di nuovo l'elenco dei pacchetti:sudo apt update 4. Installa Python 3.9:sudo apt install python3.9 5. Verifica che l'installazione sia avvenuta correttamente digitando:python3.9 --version 

Per poter creare un ambiente virtuale per questa versione di Python, puoi verificare se sei in grado di farlo usando ‘python3.9 -m venv <nome_ambiente>’, se non è così, esegui questo comando per assicurarti di avere la configurazione necessaria per l’ambiente virtuale: ‘sudo apt install python3-distutils -y’. Quindi esegui nuovamente il comando precedente per verificare i risultati.

Nota veloce: Se come me stai ottenendo questo errore:

Errore: Il comando '['/home/home_folder/p39-venv/bin/python3.9', '-Im', 'ensurepip', '--upgrade', '--default-pip']' ha restituito un codice di uscita diverso da zero.

Usa il comando qui sotto per installare le cartelle rimanenti per la creazione dell’ambiente virtuale di Python:

sudo apt-get install python3.9-dev python3.9-venv

Successivamente, procedi con la creazione dell’ambiente virtuale:

python3.9 -m venv p39-venv

Quindi attivalo:

source p39-venv/bin/activate

Assicurati di avere la versione corretta di Python nell’ambiente virtuale eseguendo ‘python –version’.

Usa i comandi qui sotto per disattivare ed eliminare l’ambiente virtuale che hai creato.

deactivaterm -rf <nome_venv>