Usa Amazon DocumentDB per creare soluzioni di machine learning senza codice in Amazon SageMaker Canvas

Utilizza Amazon DocumentDB per creare soluzioni di machine learning senza codice con Amazon SageMaker Canvas

Siamo entusiasti di annunciare il lancio dell’integrazione di Amazon DocumentDB (con compatibilità di MongoDB) con Amazon SageMaker Canvas, consentendo ai clienti di Amazon DocumentDB di creare e utilizzare soluzioni di intelligenza artificiale generativa e machine learning (ML) senza scrivere codice. Amazon DocumentDB è un database di documenti JSON interamente gestito che semplifica e rende conveniente gestire carichi di lavoro di documenti critici a qualsiasi scala senza dover gestire l’infrastruttura. Amazon SageMaker Canvas è un ambiente di lavoro ML senza codice che offre modelli pronti all’uso, inclusi modelli fondamentali, e la capacità di preparare i dati e creare e distribuire modelli personalizzati.

In questo articolo, discuteremo come portare i dati archiviati in Amazon DocumentDB in SageMaker Canvas e utilizzare tali dati per creare modelli di ML per l’analisi predittiva. Senza dover creare e gestire flussi di dati, potrai alimentare modelli di ML con i tuoi dati non strutturati archiviati in Amazon DocumentDB.

Panoramica della soluzione

Supponiamo di assumere il ruolo di un analista aziendale per una società di consegna di cibo. La tua app mobile archivia informazioni sui ristoranti in Amazon DocumentDB per la sua scalabilità e le sue capacità di schema flessibile. Vuoi raccogliere informazioni su questi dati e creare un modello di ML per prevedere come verranno valutati i nuovi ristoranti, ma trovi difficile eseguire analisi su dati non strutturati. Incontri difficoltà perché devi fare affidamento sui team di ingegneria dei dati e di scienze dei dati per raggiungere questi obiettivi.

Questa nuova integrazione risolve questi problemi semplificando l’importazione dei dati di Amazon DocumentDB in SageMaker Canvas e consentendo di iniziare immediatamente a preparare e analizzare i dati per l’ML. Inoltre, SageMaker Canvas elimina la dipendenza dall’expertise di ML per creare modelli di alta qualità e generare previsioni.

Mostreremo come utilizzare i dati di Amazon DocumentDB per creare modelli di ML in SageMaker Canvas seguendo i seguenti passaggi:

  1. Creare un connettore Amazon DocumentDB in SageMaker Canvas.
  2. Analizzare i dati utilizzando l’intelligenza artificiale generativa.
  3. Preparare i dati per l’apprendimento automatico.
  4. Creare un modello e generare previsioni.

Prerequisiti

Per implementare questa soluzione, completare i seguenti prerequisiti:

  1. Avere accesso di amministrazione AWS Cloud con un utente di AWS Identity and Access Management (IAM) con le autorizzazioni necessarie per completare l’integrazione.
  2. Completare la configurazione dell’ambiente utilizzando AWS CloudFormation tramite una delle seguenti opzioni:
    1. Deploy di un modello CloudFormation in una nuova VPC – Questa opzione crea un nuovo ambiente AWS che comprende la VPC, le subnet private, i gruppi di sicurezza, i ruoli di esecuzione IAM, Amazon Cloud9, endpoints VPC richiesti e dominio SageMaker. Successivamente, viene distribuito Amazon DocumentDB in questa nuova VPC. Scarica il modello o avvia rapidamente lo stack di CloudFormation scegliendo Launch Stack: Launching CloudFormation stack
    2. Deploy di un modello CloudFormation in una VPC esistente – Questa opzione crea gli endpoints VPC richiesti, i ruoli di esecuzione IAM e il dominio SageMaker in una VPC esistente con subnet private. Scarica il modello o avvia rapidamente lo stack di CloudFormation scegliendo Launch Stack: Launching CloudFormation stack

Nota che se stai creando un nuovo dominio SageMaker, devi configurare il dominio in una VPC privata senza accesso a Internet per poter aggiungere il connettore ad Amazon DocumentDB. Per saperne di più, consulta Configurare Amazon SageMaker Canvas in una VPC senza accesso a Internet.

  1. Segui il tutorial per caricare i dati di esempio dei ristoranti su Amazon DocumentDB.
  2. Aggiungi l’accesso ad Amazon Bedrock e al modello Anthropic Claude al suo interno. Per ulteriori informazioni, consulta Aggiungere l’accesso al modello.

Crea un connettore Amazon DocumentDB in SageMaker Canvas

Dopo aver creato il tuo dominio SageMaker, completa i seguenti passaggi:

  1. Sulla console di Amazon DocumentDB, seleziona Machine learning senza codice nel riquadro di navigazione.
  2. Nella sezione Scegli un dominio e un profilo, seleziona il tuo dominio SageMaker e il profilo utente.
  3. Scegli Avvia Canvas per avviare SageMaker Canvas in una nuova scheda.

Quando SageMaker Canvas ha finito di caricare, verrai indirizzato alla scheda Data flows.

  1. Scegli Crea per creare un nuovo flusso dati.
  2. Inserisci un nome per il tuo flusso dati e scegli Crea.
  3. Aggiungi una nuova connessione Amazon DocumentDB scegliendo Importa dati, quindi scegli Tabulare per il Tipo di dataset.
  4. Nella pagina Importa dati, per Origine dati, scegli DocumentDB e Aggiungi connessione.
  5. Inserisci un nome di connessione come “demo” e scegli il cluster di Amazon DocumentDB desiderato.

Nota che SageMaker Canvas precompila il menu a discesa con i cluster nella stessa VPC del tuo dominio SageMaker.

  1. Inserisci un nome utente, una password e un nome del database.
  2. Infine, seleziona la tua preferenza di lettura.

Per proteggere le prestazioni delle istanze primarie, SageMaker Canvas predefinisce Secondario, che significa che leggerà solo dalle istanze secondarie. Quando la preferenza di lettura è Secondario preferito, SageMaker Canvas leggerà dalle istanze secondarie disponibili, ma leggerà dall’istanza primaria se un’istanza secondaria non è disponibile. Per ulteriori informazioni su come configurare una connessione Amazon DocumentDB, consulta il Connettersi a un database memorizzato in AWS.

  1. Scegli Aggiungi connessione.

Se la connessione ha successo, vedrai le collezioni nel tuo database Amazon DocumentDB mostrate come tabelle.

  1. Trascina la tabella di tua scelta nella tela vuota. In questo post, aggiungiamo i dati del nostro ristorante.

Le prime 100 righe vengono visualizzate come anteprima.

  1. Per iniziare ad analizzare e preparare i tuoi dati, scegli Importa dati.
  2. Inserisci un nome per il dataset e scegli Importa dati.

Analizza i dati utilizzando l’IA generativa

Successivamente, vogliamo ottenere alcune informazioni sui nostri dati e cercare dei pattern. SageMaker Canvas fornisce un’interfaccia di linguaggio naturale per analizzare e preparare i dati. Quando viene caricata la scheda Dati, puoi iniziare a chattare con i tuoi dati seguendo i seguenti passaggi:

  1. Scegli Chat per la preparazione dei dati.
  2. Ottieni informazioni sui tuoi dati ponendo domande come quelle mostrate negli screenshot seguenti.

Per saperne di più su come utilizzare il linguaggio naturale per esplorare e preparare i dati, consulta Utilizza il linguaggio naturale per esplorare e preparare i dati con una nuova funzionalità di Amazon SageMaker Canvas.

Acquisiamo una conoscenza più approfondita sulla qualità dei nostri dati utilizzando il rapporto SageMaker Canvas Data Quality and Insights, che valuta automaticamente la qualità dei dati e rileva anomalie.

  1. Nella scheda Analisi, scegli Data Quality and Insights Report.
  2. Scegli rating come colonna di destinazione e Regression come tipo di problema, quindi scegli Crea.

Ciò simulerà l’addestramento del modello e fornirà informazioni su come migliorare i nostri dati per il machine learning. Il rapporto completo viene generato in pochi minuti.

Il nostro rapporto mostra che il 2,47% delle righe del nostro obiettivo presenta valori mancanti, affronteremo questo problema nel prossimo passaggio. Inoltre, l’analisi mostra che le caratteristiche address line 2, name e type_of_food hanno il maggiore potere predittivo nei nostri dati. Ciò indica che le informazioni di base sui ristoranti come la posizione e la cucina possono avere un impatto significativo sulle valutazioni.

Prepara i dati per il machine learning

SageMaker Canvas offre oltre 300 trasformazioni integrate per preparare i tuoi dati importati. Per ulteriori informazioni sulle funzionalità di trasformazione di SageMaker Canvas, consulta Prepara i dati con trasformazioni avanzate. Aggiungiamo alcune trasformazioni per preparare i nostri dati per l’addestramento di un modello di machine learning.

  1. Torna alla pagina Data flow selezionando il nome del tuo flusso dati nella parte superiore della pagina.
  2. Scegli il segno più accanto a Data types e scegli Aggiungi trasformazione.
  3. Scegli Aggiungi passaggio.
  4. Rinominiamo la colonna address line 2 in cities.
    1. Scegli Gestisci colonne.
    2. Scegli Rinomina colonna per Trasformazione.
    3. Scegli address line 2 per Colonna di input, inserisci cities per Nuovo nome e scegli Aggiungi.
  5. Inoltre, eliminiamo alcune colonne superflue.
    1. Aggiungi una nuova trasformazione.
    2. Per Trasformazione, scegli Elimina colonna.
    3. Per Colonne da eliminare, scegli URL e restaurant_id.
    4. Scegli Aggiungi.
  6. La colonna delle caratteristiche rating presenta alcuni valori mancanti, quindi riempiamo quelle righe con il valore medio di questa colonna.
    1. Aggiungi una nuova trasformazione.
    2. Per Trasformazione, scegli Imponi.
    3. Per Tipo di colonna, scegli Numerico.
    4. Per Colonne di input, scegli la colonna rating.
    5. Per Strategia di imputazione, scegli Media.
    6. Per Colonna di output, inserisci rating_avg_filled.
    7. Scegli Aggiungi.
  7. Possiamo eliminare la colonna rating perché abbiamo una nuova colonna con valori riempiti.
  8. Poiché type_of_food è di natura categorica, vorremo codificarlo numericamente. Codifichiamo questa caratteristica utilizzando la tecnica di codifica one-hot.
    1. Aggiungi una nuova trasformazione.
    2. Per Trasformazione, scegli Codifica one-hot.
    3. Per le colonne di input, scegli type_of_food.
    4. Per Strategia di gestione degli invalidi, scegli Mantieni.
    5. Per Stile di output, scegli Colonne.
    6. Per Colonna di output, inserisci encoded.
    7. Scegli Aggiungi. <img

      Costruisci un modello e genera previsioni

      Ora che abbiamo trasformato i nostri dati, addestriamo un modello di apprendimento automatico numerico per prevedere le valutazioni dei ristoranti.

      1. Scegli Crea modello.
      2. Per Nome del dataset, inserisci un nome per l’esportazione del dataset.
      3. Scegli Esporta e attendi che i dati trasformati vengano esportati.
      4. Scegli il link Crea modello nell’angolo in basso a sinistra della pagina.

      Puoi anche selezionare il dataset dalla funzione Data Wrangler sulla sinistra della pagina.

      1. Inserisci un nome per il modello.
      2. Scegli Analisi predittiva, quindi scegli Crea.
      3. Scegli rating_avg_filled come colonna target.

      SageMaker Canvas seleziona automaticamente un tipo di modello adatto.

      1. Scegli Anteprima modello per assicurarti che non ci siano problemi di qualità dei dati.
      2. Scegli Costruzione rapida per costruire il modello.

      La creazione del modello richiederà circa 2-15 minuti per completarsi.

      Puoi visualizzare lo stato del modello dopo che il modello ha terminato l’addestramento. Il nostro modello ha un RSME di 0.422, il che significa che il modello spesso prevede la valutazione di un ristorante entro +/- 0.422 del valore effettivo, una solida approssimazione per la scala di valutazione da 1 a 6.

      1. Infine, puoi generare previsioni campione navigando nella scheda Prevedi.

      Pulizia

      Per evitare di incorrere in future spese, elimina le risorse create durante la lettura di questo articolo. SageMaker Canvas addebita per la durata della sessione e ti consigliamo di uscire da SageMaker Canvas quando non lo stai utilizzando. Consulta Esci da Amazon SageMaker Canvas per ulteriori dettagli.

      Conclusioni

      In questo articolo abbiamo discusso di come puoi utilizzare SageMaker Canvas per l’IA generativa e l’apprendimento automatico con dati memorizzati in Amazon DocumentDB. Nel nostro esempio, abbiamo mostrato come un analista possa rapidamente costruire un modello di apprendimento automatico di alta qualità utilizzando un dataset di ristoranti di esempio.

      Abbiamo mostrato i passaggi per implementare la soluzione, dall’importazione dei dati da Amazon DocumentDB alla creazione di un modello di apprendimento automatico in SageMaker Canvas. L’intero processo è stato completato attraverso un’interfaccia visuale senza scrivere una singola riga di codice.

      Per iniziare il tuo percorso di apprendimento automatico a basso codice/senza codice, consulta Amazon SageMaker Canvas.

      </img