Iniziare con Google Cloud Platform in 5 semplici passaggi

Iniziare con Google Cloud Platform in 5 facili mosse

Introduzione a Google Cloud Platform

Questo articolo ha lo scopo di fornire una panoramica passo-passo su come iniziare con Google Cloud Platform (GCP) per la scienza dei dati e l’apprendimento automatico. Daremo una panoramica di GCP e delle sue principali funzionalità per l’analisi, mostreremo come configurare un account, esploreremo servizi essenziali come BigQuery e Cloud Storage, creeremo un progetto di dati di esempio e utilizzeremo GCP per l’apprendimento automatico. Che tu sia nuovo a GCP o cerchi un rapido ripasso, continua a leggere per imparare le basi e iniziare immediatamente con Google Cloud.

Cos’è GCP?

Google Cloud Platform offre una vasta gamma di servizi di cloud computing per aiutarti a creare ed eseguire app su infrastruttura di Google. Per la potenza di calcolo, c’è Compute Engine che consente di creare macchine virtuali. Se hai bisogno di eseguire container, Kubernetes fa il suo lavoro. BigQuery gestisce le tue esigenze di archiviazione dati e analisi. E con Cloud ML, ottieni modelli di apprendimento automatico preaddestrati tramite API per cose come visione, traduzione e altro. In generale, GCP mira a fornire i mattoni di base di cui hai bisogno in modo da poterti concentrare sulla creazione di ottime app senza preoccuparti dell’infrastruttura sottostante.

Vantaggi di GCP per la Scienza dei Dati

GCP offre diversi vantaggi per l’analisi dei dati e l’apprendimento automatico:

Risorse di calcolo scalabili in grado di gestire carichi di lavoro di grandi dimensioni
Servizi gestiti come BigQuery per elaborare dati su larga scala
Funzionalità avanzate di apprendimento automatico come Cloud AutoML e AI Platform
Strumenti e servizi integrati di analisi

Come GCP si Confronta con AWS e Azure

Rispetto a Amazon Web Services e Microsoft Azure, GCP si distingue per la sua forza nel campo dei big data, dell’analisi e dell’apprendimento automatico, e per l’offerta di servizi gestiti come BigQuery e Dataflow per l’elaborazione dati. AI Platform rende facile addestrare e distribuire modelli di apprendimento automatico. Nel complesso, GCP ha un prezzo competitivo ed è una delle migliori scelte per le applicazioni basate sui dati.

Caratteristica	Google Cloud Platform (GCP)	Amazon Web Services (AWS)	Microsoft Azure
Tariffazione*	Tariffazione competitiva con sconti per l’utilizzo sostenuto	Tariffazione oraria con sconti per le istanze riservate	Tariffazione al minuto con sconti per le istanze riservate
Archiviazione dei dati	BigQuery	Redshift	Synapse Analytics
Apprendimento automatico	Cloud AutoML, AI Platform	SageMaker	Azure Machine Learning
Servizi di calcolo	Compute Engine, Kubernetes Engine	EC2, ECS, EKS	Macchine virtuali, AKS
Offerte serverless	Cloud Functions, App Engine	Lambda, Fargate	Functions, Logic Apps

*Nota che i modelli di prezzo sono necessariamente semplificati per i nostri scopi. AWS e Azure offrono anche sconti per l’uso continuativo o l’uso impegnato simili a GCP; le strutture di pricing sono complesse e possono variare significativamente in base a una moltitudine di fattori, quindi si incoraggia il lettore a approfondire ulteriormente per determinare quali potrebbero essere i costi effettivi nella propria situazione.

In questa tabella, abbiamo confrontato Google Cloud Platform, Amazon Web Services e Microsoft Azure in base a varie caratteristiche come il pricing, il data warehousing, il machine learning, i servizi di calcolo e le offerte serverless. Ogni una di queste piattaforme cloud ha il proprio set unico di servizi e modelli di pricing, che si adattano a diverse esigenze aziendali e tecniche.

Passo 1: Configurazione del tuo account GCP

Creazione di un Account Google Cloud

Per utilizzare GCP, iscriviti prima a un account Google Cloud. Vai alla homepage e clicca su “Inizia gratuitamente”. Segui le istruzioni per creare un account utilizzando le tue credenziali Google o Gmail.

Creazione di un Account di Fatturazione

Successivamente sarà necessario configurare un account di fatturazione e un metodo di pagamento. Ciò ti permette di utilizzare servizi a pagamento al di là del livello gratuito. Vai alla sezione Fatturazione nella console e segui le istruzioni per aggiungere le informazioni di fatturazione.

Comprensione del Pricing di GCP

GCP offre un generoso livello gratuito di 12 mesi con un credito di $300. Ciò consente di utilizzare prodotti chiave come Compute Engine, BigQuery e altri senza costi. Consulta calcolatori di pricing e documentazione per stimare i costi completi.

Installa Google Cloud SDK

Installa Cloud SDK sulla tua macchina locale per gestire progetti/risorse tramite linea di comando. Scarica dalla pagina della guida a Cloud SDK e segui la guida di installazione.

Infine, assicurati di dare un’occhiata e avere a portata di mano la documentazione di Inizia con Google Cloud.

Passo 2: Servizi GCP per la Scienza dei Dati

Google Cloud Platform (GCP) è ricco di una miriade di servizi progettati per soddisfare una varietà di esigenze di scienza dei dati. Qui, approfondiamo alcuni dei servizi essenziali come BigQuery, Cloud Storage e Cloud Dataflow, facendo luce sulla loro funzionalità e potenziali casi d’uso.

BigQuery

BigQuery rappresenta il database analitico a basso costo completamente gestito di GCP. Con il suo modello serverless, BigQuery consente query SQL super veloci su tabelle append-mostly, sfruttando la potenza di elaborazione dell’infrastruttura di Google. Non è solo uno strumento per eseguire query, ma anche una soluzione solida di data warehousing su larga scala, in grado di gestire petabyte di dati. L’approccio serverless elimina la necessità di amministratori di database, rendendolo una scelta attraente per le aziende desiderose di ridurre i costi operativi.

Esempio: Approfondimento del dataset pubblico sulla natalità per ottenere informazioni sulle nascite negli Stati Uniti.

SELECT * FROM `bigquery-public-data.samples.natality`LIMIT 10

Cloud Storage

Cloud Storage consente uno storage di oggetti robusto, sicuro e scalabile. È una soluzione eccellente per le aziende in quanto consente la memorizzazione e il recupero di grandi quantità di dati con un alto grado di disponibilità e affidabilità. I dati in Cloud Storage sono organizzati in bucket, che funzionano come contenitori individuali per i dati e possono essere gestiti e configurati separatamente. Cloud Storage supporta classi di storage standard, nearline, coldline e di archiviazione, consentendo l’ottimizzazione di prezzo e requisiti di accesso.

Esempio: Caricare un file CSV di esempio in un bucket Cloud Storage utilizzando l’interfaccia della riga di comando gsutil.

gsutil cp sample.csv gs://my-bucket

Cloud Dataflow

Cloud Dataflow è un servizio completamente gestito per l’elaborazione di dati in streaming e batch. Eccelle nell’analisi in tempo reale o quasi in tempo reale e supporta attività di estrazione, trasformazione e caricamento (ETL) oltre che casi d’uso di analisi in tempo reale e intelligenza artificiale (IA). Cloud Dataflow è progettato per gestire le complessità dell’elaborazione di grandi quantità di dati in modo affidabile e tollerante agli errori. Si integra perfettamente con altri servizi GCP come BigQuery per l’analisi e Cloud Storage per il caricamento dei dati e i risultati temporanei, diventando una pietra angolare nella creazione di pipeline di elaborazione dati end-to-end.

Step 3: Creazione del tuo primo progetto di dati

Per intraprendere un progetto dati è necessario un approccio sistematico per garantire risultati accurati e informativi. In questo passaggio, esploreremo la creazione di un progetto su Google Cloud Platform (GCP), l’abilitazione delle API necessarie e la creazione delle condizioni per l’acquisizione, l’analisi e la visualizzazione dei dati utilizzando BigQuery e Data Studio. Nel nostro progetto, approfondiremo l’analisi dei dati storici sul meteo per individuare trend climatici.

Configurazione del progetto e abilitazione delle API

Inizia il tuo viaggio creando un nuovo progetto su GCP. Vai alla Console Cloud, fai clic sul menu a discesa del progetto e seleziona “Nuovo progetto”. Chiamalo “Analisi meteo” e segui la procedura guidata di configurazione. Una volta completata la configurazione del progetto, vai alla dashboard delle API e dei servizi per abilitare le API essenziali come BigQuery, Cloud Storage e Data Studio.

Carica il dataset in BigQuery

Per la nostra analisi meteo, avremo bisogno di un ricco dataset. Una vasta quantità di dati storici sul meteo è disponibile presso NOAA. Scarica una parte di questi dati e vai alla Console di BigQuery. Qui, crea un nuovo dataset chiamato `weather_data`. Fai clic su “Crea tabella”, carica il tuo file di dati e segui i passaggi per configurare lo schema.

Nome tabella: historical_weatherSchema: Data:DATE, Temperatura:FLOAT, Precipitazione:FLOAT, VelocitàVento:FLOAT

Query dei dati e analisi in BigQuery

Con i dati a tua disposizione, è ora di scoprire le intuizioni. L’interfaccia SQL di BigQuery rende semplice l’esecuzione delle query. Ad esempio, per trovare la temperatura media nel corso degli anni:

SELECT EXTRACT(YEAR FROM Data) AS Anno, AVG(Temperatura) AS AvgTemperaturaFROM `weather_data.historical_weather`GROUP BY AnnoORDER BY Anno ASC;

Questa query fornisce una suddivisione annuale delle temperature medie, che è cruciale per la nostra analisi dei trend climatici.

Visualizza le intuizioni con Data Studio

La rappresentazione visiva dei dati spesso rivela schemi invisibili nei numeri grezzi. Collega il tuo dataset BigQuery a Data Studio, crea un nuovo report e inizia a creare visualizzazioni. Ad esempio, un grafico a linea che mostri i trend delle temperature nel corso degli anni potrebbe essere un buon punto di partenza. L’interfaccia intuitiva di Data Studio ti permette di trascinare, rilasciare e personalizzare facilmente le tue visualizzazioni.

Condividi le tue scoperte con il tuo team utilizzando il pulsante “Condividi”, semplificando l’accesso e l’interazione con la tua analisi da parte degli stakeholder.

Attraverso questo passaggio, hai configurato un progetto GCP, acquisito un dataset del mondo reale, eseguito query SQL per analizzare i dati e visualizzato le tue scoperte per una migliore comprensione e condivisione. Questo approccio pratico aiuta non solo a comprendere i meccanismi di GCP, ma anche a ottenere informazioni utili dai tuoi dati.

Step 4: Machine Learning su GCP

L’utilizzo del machine learning (ML) può migliorare notevolmente l’analisi dei dati fornendo intuizioni più profonde e previsioni. In questo passaggio, estenderemo il nostro progetto “Analisi meteo”, utilizzando i servizi di ML di GCP per prevedere le temperature future basandoci sui dati storici. GCP offre due servizi di ML principali: Cloud AutoML per coloro che sono nuovi al ML e AI Platform per i professionisti più esperti.

Panoramica di Cloud AutoML e AI Platform

Cloud AutoML: Questo è un servizio di ML completamente gestito che facilita l’addestramento di modelli personalizzati con un minimo di codice. È ideale per coloro che non hanno una profonda conoscenza dell’apprendimento automatico.
AI Platform: Questa è una piattaforma gestita per la creazione, l’addestramento e il dispiegamento di modelli di ML. Supporta framework popolari come TensorFlow, scikit-learn e XGBoost, rendendolo adatto a coloro con esperienza nell’ambito dell’ML.

Esempio pratico con AI Platform

Continuando con il nostro progetto di analisi del meteo, il nostro obiettivo è prevedere le temperature future utilizzando i dati storici. Inizialmente, la preparazione dei dati di addestramento è un passaggio fondamentale. Pre-elabora i tuoi dati in un formato adatto all’ML, di solito CSV, e dividili in set di dati di addestramento e di test. Assicurati che i dati siano puliti, con le caratteristiche pertinenti selezionate per un addestramento accurato del modello. Una volta preparati, carica i set di dati in un bucket di Cloud Storage, creando una directory strutturata come gs://weather_analysis_data/training/ e gs://weather_analysis_data/testing/.

L’addestramento di un modello è il successivo passo significativo. Accedi ad AI Platform su GCP e crea un nuovo modello. Opta per un modello di regressione pre-compilato, poiché stiamo prevedendo un target continuo, ovvero la temperatura. Indica al modello i tuoi dati di addestramento in Cloud Storage e imposta i parametri necessari per l’addestramento. GCP si occuperà automaticamente del processo di addestramento, del tuning e della valutazione, semplificando la creazione del modello.

Dopo un addestramento di successo, distribuisci il modello addestrato all’interno di AI Platform. La distribuzione del modello consente un’integrazione facile con altri servizi GCP e applicazioni esterne, facilitando l’utilizzo del modello per le previsioni. Assicurati di impostare le versioni appropriate e i controlli di accesso per una gestione sicura e organizzata del modello.

Ora che il modello è distribuito, è il momento di testare le sue previsioni. Invia richieste di query per testare le previsioni del modello utilizzando la Console GCP o gli SDK. Ad esempio, inserisci i parametri meteorologici storici per un determinato giorno e osserva la temperatura prevista, che darà un’idea dell’accuratezza e delle prestazioni del modello.

Esempio pratico con Cloud AutoML

Per un approccio più semplice all’apprendimento automatico, Cloud AutoML offre un’interfaccia utente intuitiva per addestrare modelli. Inizia assicurandoti che i tuoi dati siano formattati correttamente e divisi, quindi caricali in Cloud Storage. Questo passaggio riproduce la preparazione dei dati in AI Platform, ma è rivolto a coloro con meno esperienza nell’ambito dell’ML.

Procedi per accedere a Cloud AutoML Tables su GCP, crea un nuovo set di dati e importa i tuoi dati da Cloud Storage. Questa configurazione è piuttosto intuitiva e richiede poche impostazioni, rendendo semplice la preparazione dei dati per l’addestramento.

L’addestramento di un modello in AutoML è semplice. Seleziona i dati di addestramento, specifica la colonna target (Temperatura) e avvia il processo di addestramento. AutoML Tables si occuperà automaticamente dell’ingegneria delle caratteristiche, del tuning del modello e della valutazione, sollevando il lavoro più pesante e consentendoti di concentrarti sulla comprensione dell’output del modello.

Una volta che il tuo modello è addestrato, distribuiscilo all’interno di Cloud AutoML e testa la sua precisione predittiva utilizzando l’interfaccia fornita o inviando richieste di query tramite GCP SDK. Questo passaggio dà vita al tuo modello, consentendoti di effettuare previsioni su nuovi dati.

Infine, valuta le prestazioni del tuo modello. Esamina le metriche di valutazione del modello, la matrice di confusione e l’importanza delle caratteristiche per comprendere meglio le sue prestazioni. Queste informazioni sono cruciali in quanto indicano se c’è la necessità di ulteriori regolazioni, ingegneria delle caratteristiche o raccolta di ulteriori dati per migliorare l’accuratezza del modello.

Immergendoti sia nell’AI Platform che nel Cloud AutoML, acquisisci una comprensione pratica di come sfruttare l’apprendimento automatico su GCP, arricchendo il tuo progetto di analisi del meteo con capacità di previsione. Attraverso questi esempi pratici, viene svelato il percorso per integrare l’apprendimento automatico nei tuoi progetti di dati, aprendo le porte a esplorazioni più avanzate nell’ambito dell’ML.

Passaggio 5: Distribuzione dei modelli in produzione

Una volta che il tuo modello di apprendimento automatico è addestrato in modo soddisfacente, il passaggio successivo fondamentale è distribuirlo in produzione. Questa distribuzione consente al tuo modello di ricevere dati reali e restituire previsioni. In questo passaggio, esploreremo diverse opzioni di distribuzione su GCP, assicurando che i tuoi modelli vengano serviti in modo efficiente e sicuro.

Fornire previsioni tramite servizi serverless

I servizi senza server su GCP, come Cloud Functions o Cloud Run, possono essere utilizzati per distribuire modelli addestrati e fornire previsioni in tempo reale. Questi servizi astraggono le attività di gestione dell’infrastruttura, consentendoti di concentrarti solo sulla scrittura e distribuzione del codice. Sono particolarmente adatti per richieste di previsione intermittenti o a basso volume grazie alle loro capacità di autoscaling.

Ad esempio, per distribuire il tuo modello di previsione delle temperature tramite Cloud Functions, è necessario impacchettare il modello in una funzione e quindi distribuirlo nel cloud. Una volta distribuito, Cloud Functions scala automaticamente verso l’alto o verso il basso quante istanze sono necessarie per gestire il numero di richieste in arrivo.

Creazione di servizi di previsione

Per previsioni ad alto volume o sensibili alla latenza, l’approccio più adatto è impacchettare i modelli addestrati in contenitori Docker e distribuirli su Google Kubernetes Engine (GKE). Questa configurazione consente di creare servizi di previsione scalabili, in grado di gestire un numero potenzialmente elevato di richieste.

Incapsulando il modello in un contenitore, crei un ambiente portatile e coerente, garantendo che funzioni allo stesso modo indipendentemente da dove il contenitore è distribuito. Una volta che il tuo contenitore è pronto, distribuiscilo su GKE, che fornisce un servizio Kubernetes gestito per orchestrare in modo efficiente le tue applicazioni containerizzate.

Best Practice

La distribuzione dei modelli in produzione richiede anche il rispetto delle best practice per garantire un’operazione fluida e la continuità dell’accuratezza dei modelli.

Mettere i modelli in Produzione sotto Monitoraggio: Tieni d’occhio le prestazioni del tuo modello nel tempo. Il monitoraggio può aiutare a rilevare problemi come la deviazione del modello, che si verifica quando le previsioni del modello diventano meno accurate a causa di cambiamenti nella distribuzione dei dati sottostanti.
Riaddestra regolarmente i modelli con Nuovi Dati: Man mano che diventano disponibili nuovi dati, riaddestra i tuoi modelli per assicurarti che continuino a fare previsioni accurate.
Implementa Test A/B per Iterazioni dei Modelli: Prima di sostituire completamente un modello esistente in produzione, utilizza il test A/B per confrontare le prestazioni del nuovo modello con quelle del vecchio.
Gestire Scenari di Fallimento e Rollback: Sii preparato per le situazioni di fallimento e crea un piano di rollback per tornare a una versione precedente del modello, se necessario.

Ottimizzazione dei Costi

L’ottimizzazione dei costi è fondamentale per mantenere un equilibrio tra prestazioni e costi.

Utilizza VM Preemptible e Autoscaling: Per gestire i costi, utilizza VM preemptible che costano significativamente meno delle VM regolari. Combina questo con l’autoscaling per assicurarti di avere le risorse necessarie quando ne hai bisogno, senza sovra-provisionare.
Confronta Distribuzioni serverless e containerizzate: Valuta le differenze di costo tra le distribuzioni serverless e containerizzate per determinare l’approccio più economico per il tuo caso d’uso.
Seleziona le Dimensioni delle Macchine in base alle Esigenze delle Risorse del Modello: Scegli le dimensioni delle macchine che corrispondono alle esigenze delle risorse del tuo modello per evitare di spendere troppo per risorse sottoutilizzate.

Considerazioni sulla Sicurezza

Garantire la sicurezza della tua distribuzione è fondamentale per proteggere sia i tuoi modelli che i dati che elaborano.

Comprendere le Best Practice di IAM, Autenticazione e Crittografia: Familiarizzati con l’Identity and Access Management (IAM) e implementa l’autenticazione e la crittografia adeguata per proteggere l’accesso ai tuoi modelli e dati.
Assicurare l’Accesso Sicuro a Modelli e Dati in Produzione: Assicurati che solo individui e servizi autorizzati abbiano accesso ai tuoi modelli e dati in produzione.
Prevenire l’Accesso Non Autorizzato ai Punti di Predizione: Implementa controlli di accesso robusti per prevenire l’accesso non autorizzato ai tuoi punti di previsione, proteggendo i tuoi modelli da utilizzi impropri.

La distribuzione dei modelli in produzione su GCP comporta una combinazione di considerazioni tecniche e operative. Rispettando le best practice, ottimizzando i costi e garantendo la sicurezza, crei una solida base per le distribuzioni di machine learning di successo, pronte a fornire valore dai tuoi modelli nelle applicazioni del mondo reale.

Prossimi passi

In questa guida completa, abbiamo esplorato gli elementi essenziali per iniziare il tuo viaggio su Google Cloud Platform (GCP) per il machine learning e la scienza dei dati. Dalla configurazione di un account GCP alla distribuzione di modelli in un ambiente di produzione, ogni passo è un mattoncino verso la creazione di applicazioni robuste basate sui dati. Ecco i prossimi passi per continuare la tua esplorazione e apprendimento su GCP.

GCP Free Tier: Approfitta del livello gratuito di GCP per esplorare ulteriormente e sperimentare con i servizi cloud. Il livello gratuito fornisce accesso ai prodotti principali di GCP ed è un ottimo modo per acquisire esperienza pratica senza sostenere costi aggiuntivi.
Servizi GCP avanzati: Approfondisci l’utilizzo dei servizi GCP più avanzati, come Pub/Sub per la messaggistica in tempo reale, Dataflow per l’elaborazione di flussi e batch o Kubernetes Engine per l’orchestrazione dei container. Comprendere questi servizi amplierà le tue conoscenze e competenze nella gestione di progetti complessi di dati su GCP.
Comunità e documentazione: La comunità GCP rappresenta una ricca fonte di conoscenza e la documentazione ufficiale è completa. Partecipa ai forum, partecipa ai meeting di GCP ed esplora i tutorial per continuare a imparare.
Certificazione: Valuta la possibilità di conseguire una certificazione Google Cloud, come ad esempio per Data Engineer professionista o Ingegnere di Machine Learning professionista, per convalidare le tue competenze e migliorare le opportunità di carriera.
Collaborazione su progetti: Collabora su progetti con colleghi o contribuisci a progetti open-source che utilizzano GCP. La collaborazione nella vita reale offre una prospettiva diversa e migliora le tue capacità di risoluzione dei problemi.

Il settore tecnologico, in particolare il cloud computing e l’apprendimento automatico, è in continua evoluzione. Rimanere aggiornati sulle ultime novità, interagire con la comunità e lavorare su progetti pratici sono modi eccellenti per affinare le tue competenze. Inoltre, rifletti sui progetti completati, impara dagli eventuali ostacoli affrontati e applica queste conoscenze ai tuoi futuri obiettivi. Ogni progetto è un’opportunità di apprendimento e il miglioramento continuo è la chiave del successo nel tuo percorso di data science e machine learning su GCP.

Seguendo questa guida, hai gettato una solida base per le tue avventure su Google Cloud Platform. Il percorso davanti a te è pieno di apprendimento, esplorazione e ampie opportunità per realizzare importanti impatti con i tuoi progetti di dati.

Matthew Mayo (@mattmayo13) ha una laurea magistrale in informatica e un diploma di specializzazione in data mining. In qualità di redattore capo di VoAGI, Matthew si impegna a rendere accessibili i concetti complessi della data science. I suoi interessi professionali includono l’elaborazione del linguaggio naturale, gli algoritmi di apprendimento automatico ed esplorare l’intelligenza artificiale emergente. È mosso dalla missione di democratizzare le conoscenze nella comunità della data science. Matthew programma sin da quando aveva 6 anni.

Data Engineering