Aumentare la produttività dello sviluppatore come Deloitte utilizza Amazon SageMaker Canvas per il machine learning senza codice/ con basso codice

Aumentare la produttività dello sviluppatore come Deloitte utilizza Amazon SageMaker Canvas per il machine learning senza codice o con basso codice

La capacità di costruire e distribuire rapidamente modelli di apprendimento automatico (ML) sta diventando sempre più importante nel mondo odierno guidato dai dati. Tuttavia, la costruzione di modelli ML richiede tempo, impegno e competenze specializzate. Dalla raccolta e pulizia dei dati all’ingegneria delle feature, alla costruzione, ottimizzazione e distribuzione dei modelli, i progetti ML richiedono spesso mesi per essere completati dagli sviluppatori. E trovare data scientist esperti può essere difficile.

Ecco dove entra in gioco la suite di servizi ML low-code e no-code di AWS. Con pochi clic utilizzando Amazon SageMaker Canvas, puoi sfruttare la potenza del ML senza dover scrivere alcun codice.

Come strategic systems integrator con una profonda esperienza in ML, Deloitte utilizza gli strumenti ML no-code e low-code di AWS per costruire ed implementare efficientemente modelli ML per i clienti di Deloitte e per le risorse interne. Questi strumenti consentono a Deloitte di sviluppare soluzioni ML senza dover codificare manualmente modelli e flussi di lavoro. Ciò può contribuire ad accelerare i tempi di consegna dei progetti e consentire a Deloitte di gestire più attività clienti.

Ecco alcune ragioni specifiche per cui Deloitte utilizza questi strumenti:

  • Accessibilità per non programmatori – Gli strumenti no-code aprono la possibilità di costruire modelli ML a non programmatori. Membri del team che hanno solo competenze di dominio e poche abilità di programmazione possono sviluppare modelli ML.
  • Adozione rapida di nuove tecnologie – La disponibilità e il costante miglioramento dei modelli pronti all’uso e dell’AutoML aiutano a garantire che gli utenti stiano costantemente utilizzando tecnologie di classe leader.
  • Sviluppo conveniente – Gli strumenti no-code aiutano a ridurre i costi e il tempo necessario per lo sviluppo dei modelli ML, rendendolo più accessibile ai clienti, il che può aiutarli a ottenere un maggiore ritorno sull’investimento.

Inoltre, questi strumenti offrono una soluzione completa per flussi di lavoro più veloci, consentendo quanto segue:

  • Preparazione più rapida dei dati – SageMaker Canvas dispone di oltre 300 trasformazioni incorporate e la capacità di utilizzare il linguaggio naturale, che può accelerare la preparazione dei dati e renderli pronti per la costruzione del modello.
  • Costruzione più rapida del modello – SageMaker Canvas offre modelli pronti all’uso o la tecnologia Amazon AutoML che consente di costruire modelli personalizzati sui dati aziendali con pochi clic. Ciò aiuta ad accelerare il processo rispetto alla codifica dei modelli da zero.
  • Distribuzione più semplice – SageMaker Canvas offre la possibilità di distribuire modelli pronti per la produzione su un endpoint di Amazon Sagmaker in pochi clic, registrandolo anche in Amazon SageMaker Model Registry.

Vishveshwara Vasa, CTO Cloud per Deloitte, dice:

“Attraverso i servizi ML no-code di AWS come SageMaker Canvas e SageMaker Data Wrangler, noi di Deloitte Consulting abbiamo ottenuto nuove efficienze, migliorando la velocità di sviluppo e produttività di distribuzione del 30-40% in tutti i progetti dedicati ai clienti e interni.”

In questo post, dimostreremo la potenza di costruire un modello ML end-to-end senza codice utilizzando SageMaker Canvas, mostrandoti come costruire un modello di classificazione per prevedere se un cliente andrà in default su un prestito. Prevedendo i default sui prestiti in modo più accurato, il modello può aiutare un’azienda di servizi finanziari a gestire il rischio, fissare i prezzi dei prestiti in modo appropriato, migliorare le operazioni, fornire servizi aggiuntivi e ottenere un vantaggio competitivo. Ti mostreremo anche come utilizzare ciò in questo post.

SageMaker Canvas offre capacità complete di preparazione dei dati supportate da Amazon SageMaker Data Wrangler nel workspace di SageMaker Canvas. Ciò ti consente di passare attraverso tutte le fasi di un normale flusso di lavoro di ML, dalla preparazione dei dati alla costruzione e distribuzione del modello, su una singola piattaforma.

La preparazione dei dati è tipicamente la fase più impegnativa in termini di tempo del flusso di lavoro di ML. Per ridurre il tempo dedicato alla preparazione dei dati, SageMaker Canvas ti consente di preparare i tuoi dati utilizzando oltre 300 trasformazioni incorporate. In alternativa, puoi scrivere indicazioni in linguaggio naturale, come “elimina le righe per la colonna c che sono outlier,” e ti verrà presentato il frammento di codice necessario per questa operazione di preparazione dei dati. Puoi quindi aggiungerlo al tuo flusso di lavoro di preparazione dei dati con pochi clic. Ti mostreremo anche come utilizzare questo in questo post.

Panoramica della soluzione

Il diagramma seguente descrive l’architettura per un modello di classificazione dei default dei prestiti utilizzando gli strumenti low-code e no-code di SageMaker.

A partire da un dataset che contiene dettagli sui dati dei default dei prestiti in Amazon Simple Storage Service (Amazon S3), utilizziamo SageMaker Canvas per ottenere informazioni sui dati. Successivamente, eseguiamo l’engineering delle feature per applicare trasformazioni come l’encoding delle feature categoriche, l’eliminazione delle feature non necessarie e altro ancora. Successivamente, memorizziamo i dati puliti nuovamente in Amazon S3. Utilizziamo il dataset pulito per creare un modello di classificazione per predire i default dei prestiti. Successivamente, disponiamo di un modello pronto per la produzione per l’elaborazione di dati in tempo reale.

Requisiti

Assicurarsi che i seguenti requisiti siano completi e che si abbia abilitato l’opzione Canvas Ready-to-use models durante la configurazione del dominio SageMaker. Se si è già configurato il proprio dominio, modificare le impostazioni del dominio e andare a Impostazioni di Canvas per abilitare l’opzione Enable Canvas Ready-to-use models. Inoltre, configurare e creare l’applicazione SageMaker Canvas, quindi richiedere e abilitare l’accesso al modello Anthropic Claude su Amazon Bedrock.

Dataset

Utilizziamo un dataset pubblico da kaggle che contiene informazioni sui prestiti finanziari. Ogni riga nel dataset rappresenta un singolo prestito, e le colonne forniscono dettagli su ciascuna transazione. Scaricare questo dataset e memorizzarlo in un bucket S3 a tua scelta. La seguente tabella elenca i campi nel dataset.

Nome colonna Tipo di dati Descrizione
Person_age Intero Età della persona che ha preso un prestito
Person_income Intero Reddito del mutuatario
Person_home_ownership Stringa Stato della proprietà abitativa (proprietario o in affitto)
Person_emp_length Decimale Numero di anni di impiego
Loan_intent Stringa Motivo del prestito (personale, medico, educativo, ecc.)
Loan_grade Stringa Classe del prestito (A-E)
Loan_int_rate Decimale Tasso di interesse
Loan_amnt Intero Importo totale del prestito
Loan_status Intero Target (se hanno fatto default o meno)
Loan_percent_income Decimale Importo del prestito rispetto alla percentuale del reddito
Cb_person_default_on_file Intero Precedenti default (se presenti)
Cb_person_credit_history_length Stringa Durata della loro storia creditizia

Semplifica la preparazione dei dati con SageMaker Canvas

La preparazione dei dati può richiedere fino all’80% dell’impegno nei progetti di machine learning. Una corretta preparazione dei dati porta a una migliore performance del modello e a previsioni più accurate. SageMaker Canvas consente l’esplorazione interattiva dei dati, la trasformazione e la preparazione senza scrivere alcun codice SQL o Python.

Completa i seguenti passaggi per preparare i tuoi dati:

  1. Nella console di SageMaker Canvas, scegli Preparazione dati nel riquadro di navigazione.
  2. Nel menu Crea, scegli Documento.
  3. Per Nome del dataset, inserisci un nome per il tuo dataset.
  4. Scegli Crea.
  5. Scegli Amazon S3 come origine dati e connettilo al dataset.
  6. Dopo che il dataset è stato caricato, crea un flusso di dati utilizzando quel dataset.
  7. Passa alla scheda analisi e crea un Rapporto sulla qualità dei dati e sulle informazioni.

Questa è una fase consigliata per analizzare la qualità del dataset di input. L’output di questo rapporto fornisce istantanee ML-powered come dispersione dei dati, duplicati nei dati, valori mancanti e molto altro. Lo screenshot seguente mostra un esempio del rapporto generato per il dataset dei prestiti.

Generando queste informazioni per tuo conto, SageMaker Canvas fornisce un insieme di problemi nei dati che necessitano di correzione nella fase di preparazione dei dati. Per selezionare i primi due problemi identificati da SageMaker Canvas, è necessario codificare le caratteristiche categoriche e rimuovere le righe duplicate per garantire una elevata qualità del modello. Puoi fare entrambe queste attività e molto altro in un flusso di lavoro visuale con SageMaker Canvas.

  1. Prima di tutto, codifica one-hot le caratteristiche loan_intent, loan_grade e person_home_ownership
  2. Puoi eliminare la colonna cb_person_cred_history_length perché quella colonna ha il minor potere predittivo, come mostrato nel Rapporto sulla qualità dei dati e sulle informazioni. SageMaker Canvas ha recentemente aggiunto una opzione Chat con data. Questa funzionalità utilizza la potenza dei modelli di base per interpretare le interrogazioni in linguaggio naturale e generare codice in Python per applicare le trasformazioni di feature engineering. Questa funzionalità è alimentata da Amazon Bedrock e può essere configurata per essere eseguita interamente nel tuo Amazon VPC in modo che i dati non lascino mai il tuo ambiente.
  3. Per utilizzare questa funzionalità per rimuovere righe duplicate, scegli il segno più accanto alla trasformazione Elimina colonna, quindi scegli Chat con data.
  4. Inserisci la tua query in linguaggio naturale (ad esempio, “Rimuovi righe duplicate dal dataset”).
  5. Verifica la trasformazione generata e scegli Aggiungi alle operazioni per aggiungere la trasformazione al flusso.
  6. Infine, esporta l’output di queste trasformazioni su Amazon S3 o, opzionalmente, Amazon SageMaker Feature Store per utilizzare queste feature in più progetti.

Puoi anche aggiungere un altro passaggio per creare una destinazione Amazon S3 per il dataset per scalare il flusso di lavoro per un dataset di grandi dimensioni. Il seguente diagramma mostra il flusso di dati di SageMaker Canvas dopo l’aggiunta delle trasformazioni visive.

Hai completato l’intero processo di elaborazione dei dati e l’ingegneria delle caratteristiche utilizzando i flussi di lavoro visivi in SageMaker Canvas. Questo aiuta a ridurre il tempo che un ingegnere dati dedica alla pulizia e alla preparazione dei dati per lo sviluppo del modello da settimane a giorni. Il prossimo passo è costruire il modello di ML.

Costruire un modello con SageMaker Canvas

Amazon SageMaker Canvas fornisce un flusso di lavoro end-to-end senza codice per la creazione, l’analisi, i test e il deployment di questo modello di classificazione binario. Completa i seguenti passaggi:

  1. Crea un dataset in SageMaker Canvas.
  2. Specifica la posizione S3 che è stata utilizzata per esportare i dati o la posizione S3 che è la destinazione del job di SageMaker Canvas. Ora sei pronto per costruire il modello.
  3. Scegli Modelli nel pannello di navigazione e scegli Nuovo modello.
  4. Nomina il modello e seleziona Analisi predittiva come tipo di modello.
  5. Scegli il dataset creato nel passaggio precedente. Il prossimo passo è configurare il tipo di modello.
  6. Scegli la colonna target e il tipo di modello sarà impostato automaticamente come predizione di 2 categorie.
  7. Scegli il tipo di creazione, Creazione standard o Creazione rapida. SageMaker Canvas mostra il tempo di creazione previsto non appena si inizia a creare il modello. La creazione standard di solito richiede tra le 2 e le 4 ore; puoi utilizzare l’opzione Creazione rapida per dataset più piccoli, che richiede solo tra i 2 e i 15 minuti. Per questo particolare dataset, dovrebbe richiedere circa 45 minuti per completare la creazione del modello. SageMaker Canvas ti tiene informato sul progresso del processo di creazione.
  8. Dopo che il modello è stato creato, puoi guardare le prestazioni del modello. SageMaker Canvas fornisce diverse metriche come l’accuratezza, la precisione e lo score F1 a seconda del tipo di modello. Lo screenshot seguente mostra l’accuratezza e alcune altre metriche avanzate per questo modello di classificazione binario.
  9. Il passo successivo è effettuare previsioni di test. SageMaker Canvas ti permette di effettuare previsioni batch su input multipli o una singola previsione per verificare rapidamente la qualità del modello. Lo screenshot seguente mostra un’infrazione di esempio.
  10. L’ultimo passo è distribuire il modello addestrato. SageMaker Canvas distribuisce il modello su endpoint SageMaker, e ora hai un modello di produzione pronto per l’inferenza. Lo screenshot seguente mostra il punto di distribuzione.

Dopo che il modello viene implementato, puoi chiamarlo tramite AWS SDK o Interfaccia a riga di comando AWS (AWS CLI) o effettuare chiamate API a qualsiasi applicazione di tua scelta per prevedere con fiducia il rischio di un potenziale mutuatario. Per ulteriori informazioni su come testare il tuo modello, consulta Invocare endpoint in tempo reale.

Clean up

Per evitare di incorrere in costi aggiuntivi, effettua il logout da SageMaker Canvas o elimina il dominio di SageMaker che è stato creato. Inoltre, elimina l’endpoint del modello di SageMaker e elimina il dataset caricato su Amazon S3.

Conclusion

Il ML senza codice accelera lo sviluppo, semplifica l’implementazione, non richiede competenze di programmazione, aumenta la standardizzazione e riduce i costi. Questi vantaggi hanno reso il ML senza codice interessante per Deloitte per migliorare le sue offerte di servizi di ML e hanno ridotto i tempi di costruzione del modello di ML del 30-40%.

Deloitte è un integratore di sistemi strategico globale con oltre 17.000 praticanti AWS certificati in tutto il mondo. Continua ad alzare l’asticella attraverso la partecipazione al programma Competency AWS con 25 competenze, inclusa l’apprendimento automatico. Connetti con Deloitte per iniziare a utilizzare soluzioni senza codice e con codice ridotto di AWS per la tua azienda.