Governare il ciclo di vita ML su larga scala, Parte 1 Un framework per l’architettura dei carichi di lavoro ML utilizzando Amazon SageMaker

Gestire il ciclo di vita dell'apprendimento automatico su larga scala, Parte 1 Un framework per l'architettura dei carichi di lavoro di machine learning utilizzando Amazon SageMaker

I clienti di tutte le dimensioni e settori stanno innovando su AWS integrando l’apprendimento automatico (ML) nei loro prodotti e servizi. Gli sviluppi recenti nei modelli AI generativi hanno ulteriormente accelerato la necessità di adozione dell’ML in tutte le industrie. Tuttavia, implementare controlli di sicurezza, privacy dei dati e governance rimane ancora una sfida chiave per i clienti quando implementano carichi di lavoro di ML su larga scala. Affrontare tali sfide costruisce il quadro e le basi per attenuare i rischi e l’uso responsabile dei prodotti basati su ML. Anche se l’IA generativa potrebbe richiedere controlli aggiuntivi, come la rimozione della tossicità e la prevenzione di jailbreaking e allucinazioni, condivide gli stessi elementi fondamentali per la sicurezza e la governance dell’ML tradizionale.

Dai clienti riceviamo la richiesta di conoscenze specializzate e di investimenti fino a 12 mesi per la creazione della loro implementazione personalizzata della piattaforma ML Amazon SageMaker per garantire ambienti ML scalabili, affidabili, sicuri e governati per le loro linee di business o team di ML. Se non si dispone di un quadro per la gestione del ciclo di vita di ML su scala, potreste incontrare sfide come l’isolamento delle risorse a livello di team, la dimensionamento delle risorse di sperimentazione, l’operazionalizzazione dei flussi di lavoro di ML, l’escalation della governance dei modelli e la gestione della sicurezza e della conformità dei carichi di lavoro di ML.

Governare il ciclo di vita dell’ML su larga scala è un quadro che vi aiutare a costruire una piattaforma ML con controlli embedded di sicurezza e governance basati sulle migliori pratiche del settore e gli standard aziendali. Questo quadro affronta le sfide fornendo indicazioni prescrittive attraverso un approccio di quadro modulare estendendo un ambiente AWS multi-account di AWS Control Tower e l’approccio discusso nel post Configurazione di ambienti di apprendimento automatico sicuri e ben governati su AWS.

Fornisce indicazioni prescrittive per le seguenti funzioni della piattaforma ML:

  • Fondamenti multi-account, sicurezza e rete – Questa funzione utilizza AWS Control Tower e i principi ben definiti per l’installazione e il funzionamento dell’ambiente multi-account, dei servizi di sicurezza e di rete.
  • Fondamenti dei dati e della governance – Questa funzione utilizza un’architettura a mesh dati per l’installazione e il funzionamento del data lake, del central feature store e dei fondamenti della governance dei dati per consentire un accesso ai dati dettagliato.
  • Servizi condivisi e di governance della piattaforma ML – Questa funzione consente di installare e gestire servizi comuni come CI/CD, AWS Service Catalog per la fornitura di ambienti e un registro centrale dei modelli per la promozione e la tracciabilità dei modelli.
  • Ambienti del team ML – Questa funzione consente di installare e gestire ambienti per i team di ML per lo sviluppo, il testing e il rilascio dei loro casi d’uso per incorporare controlli di sicurezza e governance.
  • Osservabilità della piattaforma ML – Questa funzione aiuta a risolvere i problemi nei modelli di ML attraverso la centralizzazione dei registri e la fornitura di strumenti per l’analisi e la visualizzazione dei log. Fornisce anche indicazioni per la generazione di report sui costi e l’utilizzo per i casi d’uso di ML.

Anche se questo quadro può portare benefici a tutti i clienti, è particolarmente vantaggioso per le grandi imprese mature, regolamentate o globali che desiderano scalare le loro strategie ML in un approccio controllato, conforme e coordinato in tutta l’organizzazione. Aiuta a consentire l’adozione dell’ML attenuando i rischi. Questo quadro è utile per i seguenti clienti:

  • Grandi imprese con molte linee di business o dipartimenti interessati all’uso di ML. Questo quadro consente a diversi team di creare e distribuire modelli di ML in modo indipendente fornendo una governance centrale.
  • Imprese con un grado di maturità moderato o elevato nell’ambito dell’ML. Hanno già implementato alcuni modelli di ML iniziali ed intendono scalare i loro sforzi ML. Questo quadro può contribuire ad accelerare l’adozione di ML in tutta l’organizzazione. Queste aziende riconoscono anche la necessità di governance per gestire elementi come il controllo degli accessi, l’utilizzo dei dati, le prestazioni del modello e i pregiudizi scorretti.
  • Aziende nei settori regolamentati come servizi finanziari, sanità, chimica e settore privato. Queste aziende hanno bisogno di una governance e tracciabilità solide per tutti i modelli di ML utilizzati nei processi aziendali. L’adozione di questo quadro può facilitare la conformità consentendo comunque lo sviluppo locale di modelli.
  • Organizzazioni globali che devono bilanciare il controllo centralizzato con quello locale. L’approccio federato di questo quadro consente al team di ingegneria della piattaforma centrale di impostare alcune politiche e standard ad alto livello, ma dà anche ai team delle linee di business la flessibilità di adattarsi alle esigenze locali.

Nella prima parte di questa serie, esploreremo l’architettura di riferimento per l’installazione della piattaforma di apprendimento automatico (ML). In un post successivo, forniremo indicazioni prescrittive su come implementare i vari moduli nell’architettura di riferimento nella vostra organizzazione.

Le capacità della piattaforma di ML sono raggruppate in quattro categorie, come mostrato nella figura seguente. Queste capacità costituiscono la base dell’architettura di riferimento discussa in seguito in questo post:

  • Costruire le fondamenta di ML
  • Scala le operazioni di ML
  • Osserva ML
  • Sicurezza ML

Panoramica della soluzione

Il quadro per la gestione del ciclo di vita di ML a scala consente alle organizzazioni di integrare controlli di sicurezza e governance lungo il ciclo di vita di ML, aiutando a ridurre i rischi e accelerare l’integrazione di ML nei prodotti e servizi. Il quadro aiuta a ottimizzare l’installazione e la governance di ambienti ML sicuri, scalabili e affidabili che possono essere scalati per supportare un numero sempre maggiore di modelli e progetti. Il quadro offre le seguenti funzionalità:

  • Provisioning dell’account e dell’infrastruttura con risorse di infrastruttura conformi alle politiche dell’organizzazione
  • Implementazione self-service di ambienti di data science e modelli di operazioni di ML end-to-end (MLOps) per casi d’uso di ML
  • Isolamento dei livelli LOB o di team delle risorse per la sicurezza e la conformità alla privacy
  • Accesso governato ai dati di livello di produzione per sperimentazione e flussi di lavoro pronti per la produzione
  • Gestione e governance dei repository di codice, dei flussi di codice, dei modelli implementati e delle caratteristiche dei dati
  • Registro dei modelli e repository delle caratteristiche (componenti locali e centrali) per migliorare la governance
  • Controlli di sicurezza e governance per il processo di sviluppo e distribuzione di modelli end-to-end

In questa sezione, forniamo una panoramica delle indicazioni prescrittive per aiutarvi a costruire questa piattaforma di ML su AWS con controlli di sicurezza e governance integrati.

L’architettura funzionale associata alla piattaforma di ML è mostrata nel diagramma seguente. L’architettura mappa le diverse capacità della piattaforma di ML su account AWS.

L’architettura funzionale con diverse capacità viene implementata utilizzando diversi servizi AWS, tra cui AWS Organizations, SageMaker, servizi AWS DevOps e un data lake. L’architettura di riferimento per la piattaforma di ML con vari servizi AWS è mostrata nel seguente diagramma.

Questo quadro considera diverse persone e servizi per governare il ciclo di vita di ML a scala. Raccomandiamo i seguenti passaggi per organizzare i vostri team e servizi:

  1. Utilizzando AWS Control Tower e strumenti di automazione, l’amministratore del cloud configura le fondamenta multi-account come Organizzazioni e Centro di Identità AWS IAM (successore di AWS Single Sign-On) e servizi di sicurezza e governance come AWS Key Management Service (AWS KMS) e Service Catalog. Inoltre, l’amministratore configura una serie di unità organizzative (UO) e account iniziali per supportare i vostri flussi di lavoro di ML e analisi.
  2. Gli amministratori del data lake configurano il vostro data lake e il catalogo dei dati e configurano il central feature store in collaborazione con l’amministratore della piattaforma di ML.
  3. L’amministratore della piattaforma di ML fornisce servizi condivisi di ML come AWS CodeCommit, AWS CodePipeline, Amazon Elastic Container Registry (Amazon ECR), un registro di modelli centrale, SageMaker Model Cards, SageMaker Model Dashboard e prodotti di Service Catalog per i team di ML.
  4. Il capo del team di ML ottiene le credenziali attraverso IAM Identity Center, utilizza i prodotti di Service Catalog e fornisce risorse nell’ambiente di sviluppo del team di ML.
  5. I data scientist dei team di ML delle diverse unità aziendali si federano nel proprio ambiente di sviluppo del team per costruire il flusso di modelli.
  6. I data scientist cercano e estraggono caratteristiche dal catalogo centrale delle caratteristiche, costruiscono modelli attraverso esperimenti e selezionano il miglior modello da promuovere.
  7. I data scientist creano e condividono nuove caratteristiche nel catalogo centrale delle caratteristiche per il riutilizzo.
  8. Un ingegnere di ML distribuisce il flusso di modelli nell’ambiente di test del team di ML utilizzando un processo di CI/CD condiviso.
  9. Dopo la convalida degli stakeholder, il modello di ML viene distribuito nell’ambiente di produzione del team.
  10. Sono incorporati controlli di sicurezza e governance in ogni livello di questa architettura utilizzando servizi come AWS Security Hub, Amazon GuardDuty, Amazon Macie e altri.
  11. I controlli di sicurezza sono gestiti centralmente dall’account degli strumenti di sicurezza utilizzando Security Hub.
  12. Le capacità di governance della piattaforma di ML come SageMaker Model Cards e SageMaker Model Dashboard sono gestite centralmente dall’account dei servizi di governance.
  13. Amazon CloudWatch e i log di AWS CloudTrail di ciascun account membro sono resi accessibili in modo centralizzato da un account di osservabilità utilizzando servizi nativi AWS.

Successivamente, approfondiamo i moduli dell’architettura di riferimento per questo framework.

Moduli di architettura di riferimento

L’architettura di riferimento comprende otto moduli, ciascuno progettato per risolvere un insieme specifico di problemi. Collettivamente, questi moduli affrontano la governance su varie dimensioni, come infrastruttura, dati, modelli e costi. Ogni modulo offre un insieme distintivo di funzioni e interagisce con gli altri moduli per fornire una piattaforma di ML integrata end-to-end con controlli di sicurezza e governance incorporati. In questa sezione, presentiamo un breve riassunto delle capacità di ciascun modulo.

Fondamenta multi-account

Questo modulo aiuta gli amministratori cloud a costruire una zona di sbarco AWS Control Tower come framework fondamentale. Questo include la creazione di una struttura multi-account, autenticazione e autorizzazione tramite IAM Identity Center, un design a hub e spoke di rete, servizi centralizzati di logging e nuovi account membri AWS con linee guida di sicurezza e governance standardizzate.

Inoltre, questo modulo fornisce linee guida sulle migliori pratiche per le strutture di OU e account che sono appropriate per supportare i flussi di lavoro di ML e analisi. Gli amministratori cloud comprenderanno lo scopo degli account e delle OU richieste, come distribuirli e quali servizi di sicurezza e conformità chiave dovrebbero utilizzare per governare centralmente i flussi di lavoro di ML e analisi.

Viene trattato anche un framework per la creazione di nuovi account, che utilizza l’automazione per la baselining dei nuovi account al momento della loro fornitura. Grazie a un processo automatizzato di provisioning degli account, gli amministratori cloud possono fornire alle squadre di ML e analisi gli account di cui hanno bisogno per svolgere il lavoro più rapidamente, senza rinunciare a una solida base per la governance.

Fondamenta del data lake

Questo modulo aiuta gli amministratori del data lake a configurare un data lake per l’ingestione di dati, la curatela dei dataset e l’utilizzo del modello di governance AWS Lake Formation per gestire l’accesso ai dati dettagliati su account e utenti utilizzando un catalogo dati centralizzato, politiche di accesso ai dati e controlli di accesso basati su tag. Puoi iniziare con un singolo account per le fondamenta della piattaforma dati per una prova di concetto o alcune piccole carichi di lavoro. Per un’implementazione di produzione su larga scala, raccomandiamo l’adozione di una strategia multi-account. In un contesto del genere, le LOB possono assumere il ruolo di produttori di dati e consumatori di dati utilizzando diversi account AWS e la governance del data lake viene gestita da un account AWS condiviso centralmente. Il produttore di dati raccoglie, elabora e archivia dati dal proprio dominio di dati, oltre a monitorare ed assicurare la qualità dei propri asset di dati. I consumatori di dati invece utilizzano i dati dal produttore di dati dopo che il catalogo centralizzato li condivide utilizzando Lake Formation. Il catalogo centralizzato memorizza e gestisce il catalogo dati condiviso per gli account dei produttori di dati.

Servizi di piattaforma di ML

Questo modulo aiuta il team di ingegneria della piattaforma di ML a configurare servizi condivisi utilizzati dai team di scienze dei dati sui loro account di team. I servizi includono un portfolio del Catalogo dei Servizi per il deployment del dominio di SageMaker, il deployment di profilo utente del dominio di SageMaker, modelli di dati scientifici per la costruzione e il deployment di modelli. Questo modulo ha funzionalità per un registro centralizzato dei modelli, schede dei modelli, dashboard dei modelli e le pipeline CI/CD utilizzate per orchestrare e automatizzare le flotte di sviluppo e deployment dei modelli.

Inoltre, questo modulo dettaglia come implementare i controlli e la governance necessari per abilitare le capacità self-service basate sulle persone, consentendo ai team di scienze dei dati di distribuire autonomamente le infrastrutture cloud necessarie e i modelli di ML.

Sviluppo di casi d’uso di ML

Questo modulo aiuta le LOB e gli scienziati dei dati ad accedere al dominio SageMaker del loro team in un ambiente di sviluppo e istanziare un template di costruzione del modello per sviluppare i loro modelli. In questo modulo, gli scienziati dei dati lavorano su un’istanza di account di sviluppo del template per interagire con i dati disponibili nel data lake centralizzato, riutilizzare e condividere le funzionalità da un archivio di feature centralizzato, creare ed eseguire esperimenti di ML, costruire e testare i loro flussi di lavoro di ML e registrare i loro modelli in un registro dei modelli nell’ambiente di sviluppo.

Sono implementate anche capacità come il tracciamento degli esperimenti, i rapporti sull’explicability dei modelli, il monitoraggio dei dati e del bias dei modelli e il registro dei modelli, consentendo un’adattabilità rapida delle soluzioni ai modelli sviluppati degli scienziati dei dati.

Operazioni di ML

Questo modulo aiuta gli ingegneri LOB e ML a lavorare sulle loro istanze di sviluppo del modello di distribuzione. Dopo che il modello candidato è registrato e approvato, vengono configurati i pipeline di integrazione continua/ distribuzione continua (CI/CD) e vengono eseguiti i workflow di apprendimento automatico nell’ambiente di test del team, che registra il modello nel registro centrale dei modelli eseguito in un account di servizi condivisi della piattaforma. Quando un modello viene approvato nel registro centrale dei modelli, ciò attiva una pipeline CI/CD per distribuire il modello nell’ambiente di produzione del team.

Store centralizzato delle caratteristiche

Dopo che i primi modelli vengono distribuiti in produzione e diversi casi d’uso iniziano a condividere le caratteristiche create dagli stessi dati, uno store delle caratteristiche diventa essenziale per garantire la collaborazione tra i casi d’uso e ridurre il lavoro duplicato. Questo modulo aiuta il team di ingegneria della piattaforma di apprendimento automatico a configurare uno store centralizzato delle caratteristiche per fornire archiviazione e governo delle caratteristiche di apprendimento automatico create dai casi d’uso ML, consentendo il riutilizzo delle caratteristiche tra i progetti.

Logging e osservabilità

Questo modulo aiuta gli LOB e i praticanti di apprendimento automatico a ottenere visibilità sullo stato degli oneri di lavoro di apprendimento automatico attraverso la centralizzazione delle attività di log come CloudTrail, CloudWatch, registri di flusso VPC e registri degli oneri di lavoro di apprendimento automatico. I team possono filtrare, interrogare e visualizzare i log per l’analisi, il che può anche contribuire a migliorare la postura di sicurezza.

Costi e reportistica

Questo modulo aiuta vari stakeholder (amministratore cloud, amministratore di piattaforma, ufficio aziendale cloud) a generare report e dashboard per scomporre i costi a livello di utente ML, team ML e prodotto ML, e monitorare l’utilizzo come numero di utenti, tipi di istanze e endpoint.

I clienti ci hanno chiesto di fornire indicazioni su quanti account creare e come strutturare tali account. Nella sezione successiva forniamo indicazioni sulla struttura dell’account come riferimento che puoi modificare per soddisfare le tue esigenze in base ai requisiti di governance aziendale.

Struttura dell’account di riferimento

In questa sezione discutiamo la nostra raccomandazione per l’organizzazione della struttura dell’account. Condividiamo una struttura di account di riferimento di base; tuttavia, consigliamo agli amministratori di apprendimento automatico e dati di lavorare a stretto contatto con gli amministratori cloud per personalizzare questa struttura dell’account in base ai controlli dell’organizzazione.

Raccomandiamo di organizzare gli account per unità organizzative (OU) per sicurezza, infrastruttura, oneri di lavoro e distribuzioni. Inoltre, all’interno di ogni OU, organizzare per OU non di produzione e di produzione perché gli account e gli oneri di lavoro distribuiti sotto di essi hanno controlli diversi. Successivamente, discutiamo brevemente quelle OU.

OU di sicurezza

Gli account in questa OU sono gestiti dall’amministratore cloud o dal team di sicurezza dell’organizzazione per il monitoraggio, l’identificazione, la protezione, la rilevazione e la risposta agli eventi di sicurezza.

OU di infrastruttura

Gli account in questa OU sono gestiti dall’amministratore cloud o dal team di rete dell’organizzazione per la gestione di risorse e reti condivise a livello aziendale.

Raccomandiamo di avere i seguenti account nell’OU di infrastruttura:

  • Network – Configura un’infrastruttura di rete centralizzata come AWS Transit Gateway
  • Servizi condivisi – Configura servizi AD centralizzati e punti di accesso VPC

OU di oneri di lavoro

Gli account in questa OU sono gestiti dagli amministratori del team di piattaforma dell’organizzazione. Se è necessario implementare controlli diversi per ciascun team di piattaforma, è possibile annidare ulteriori livelli di OU a tale scopo, ad esempio una OU di oneri di lavoro di apprendimento automatico, una OU di oneri di lavoro dei dati, ecc.

Raccomandiamo i seguenti account nell’OU di oneri di lavoro:

  • Account ML per sviluppo, test e produzione a livello di team – Configura in base ai requisiti di isolamento dell’oneri di lavoro
  • Account per il data lake – Partiziona gli account in base al tuo dominio dati
  • Account di governance centrale dei dati – Centralizza le tue politiche di accesso ai dati
  • Account centrale dello store delle caratteristiche – Centralizza le caratteristiche da condividere tra i team

OU di distribuzione

Gli account in questa OU sono gestiti dagli amministratori del team di piattaforma dell’organizzazione per la distribuzione degli oneri di lavoro e l’osservabilità.

Vi consigliamo i seguenti account nell’OU delle distribuzioni perché il team della piattaforma ML può impostare diversi set di controlli a livello di OU per gestire e governare le distribuzioni:

  • Account dei servizi condivisi ML per test e produzione – Ospita i servizi condivisi della piattaforma, CI/CD e il registro dei modelli
  • Account dell’osservabilità ML per test e produzione – Ospita i registri di CloudWatch, i registri di CloudTrail e altri registri necessari

In seguito, discutiamo brevemente i controlli organizzativi che devono essere considerati per essere incorporati negli account dei membri per il monitoraggio delle risorse di infrastruttura.

Controlli ambientali AWS

Un controllo è una regola di alto livello che fornisce una governance continua per il tuo ambiente AWS complessivo. Viene espresso in linguaggio semplice. In questo framework, utilizziamo AWS Control Tower per implementare i seguenti controlli che ti aiutano a governare le tue risorse e monitorare la conformità tra gruppi di account AWS:

  • Controlli preventivi – Un controllo preventivo garantisce che i tuoi account mantengano la conformità evitando azioni che violano le policy e vengono implementati utilizzando una Service Control Policy (SCP). Ad esempio, puoi impostare un controllo preventivo che garantisca che CloudTrail non venga eliminato o interrotto negli account AWS o nelle regioni.
  • Controlli detective – Un controllo detective rileva la non conformità delle risorse all’interno dei tuoi account, come violazioni di policy, fornisce avvisi tramite il dashboard e viene implementato utilizzando regole di AWS Config. Ad esempio, puoi creare un controllo detective per verificare se l’accesso di lettura pubblica è abilitato per i bucket di Amazon Simple Storage Service (Amazon S3) nell’account condiviso di archiviazione dei log.
  • Controlli proattivi – Un controllo proattivo analizza le risorse prima che vengano previsionate e si assicura che le risorse siano conformi a tale controllo e vengano implementate utilizzando hook di AWS CloudFormation. Le risorse non conformi non saranno previsionate. Ad esempio, puoi impostare un controllo proattivo che verifica che un’istanza di blocco note SageMaker non consenta l’accesso diretto a Internet.

Interazioni tra i servizi di piattaforma ML, i casi d’uso ML e le operazioni ML

Diverse persone, come il responsabile della scienza dei dati (capo scienziato dei dati), lo scienziato dei dati e l’ingegnere ML, operano nei moduli 2-6 come mostrato nel seguente diagramma per diverse fasi dei servizi di piattaforma ML, lo sviluppo del caso d’uso ML e le operazioni ML insieme alle basi del data lake e al data store centrale delle funzionalità.

La seguente tabella riassume l’attività di flusso ops e i passaggi di flusso di configurazione per diverse persone. Una volta che una persona avvia un’attività ML come parte del flusso ops, i servizi vengono eseguiti come indicato nei passaggi di flusso di configurazione.

Persona Attività flusso ops – Numero Attività flusso ops – Descrizione Passaggio flusso di configurazione – Numero Passaggio flusso di configurazione – Descrizione
Responsabile della scienza dei dati o capo team ML 1

Utilizza Service Catalog nell’account dei servizi di piattaforma ML e distribuisce i seguenti:

    • infrastruttura ML
    • SageMaker

progetti – SageMaker

  modello

registro

1-A
  • Configura gli ambienti sviluppo, test e produzione per LOB
  • Configura

SageMaker Studio nell’account dei

servizi di piattaforma ML

1-B
  • Configura

SageMaker Studio con la

configurazione richiesta

Scienziato dei dati 2 Conduce e traccia esperimenti ML in notebook SageMaker 2-A
  • Utilizza dati da Data Lake

Formation – Salva

funzionalità nel data store centrale delle funzionalità

3 Automatizza gli esperimenti ML di successo con progetti e pipeline SageMaker 3-A
    • Inizia

pipelines SageMaker (pre-elaborazione,

 addestramento,

valutazione) nell’account di

sviluppo
  • Inizia il processo di compilazione CI/CD con CodePipeline nell’account sviluppo
3-B Dopo l’esecuzione delle pipeline SageMaker, salva il modello nel registro dei modelli locale (sviluppo)
Responsabile della scienza dei dati o capo team ML 4 Approva il modello nel registro dei modelli locale (sviluppo) 4-A Metadati del modello e pacchetto del modello scritti dal registro dei modelli locale (sviluppo) nel registro centrale dei modelli
5 Approva il modello nel registro centrale dei modelli 5-A Inizia il processo di compilazione CI/CD per creare endpoints SageMaker nell’ambiente di test
5-B Scrive le informazioni e i metadati del modello dal registro locale (sviluppo) all’interno del modulo di governance ML (scheda del modello, dashboard del modello) nell’account dei servizi di piattaforma ML
Ingegnere ML 6 Testa e monitora l’endpoint SageMaker nell’ambiente di test dopo CI/CD .
7 Approva la distribuzione degli endpoints SageMaker nell’ambiente di produzione 7-A Inizia il processo di compilazione CI/CD per creare gli endpoints SageMaker nell’ambiente di produzione
8 Testa e monitora l’endpoint SageMaker nell’ambiente di test dopo CI/CD .

Personaggi e interazioni con i diversi moduli della piattaforma ML

Ogni modulo si rivolge a particolari personaggi target all’interno di divisioni specifiche che utilizzano il modulo più frequentemente, garantendo loro l’accesso primario. L’accesso secondario viene quindi concesso ad altre divisioni che richiedono un uso occasionale dei moduli. I moduli sono personalizzati in base alle esigenze di ruoli lavorativi o personaggi specifici per ottimizzare la funzionalità.

Discutiamo i seguenti team:

  • Ingegneria cloud centrale – Questo team opera a livello di cloud aziendale su tutti i carichi di lavoro per la configurazione di servizi infrastrutturali cloud comuni, come la configurazione di networking a livello aziendale, identità, autorizzazioni e gestione account
  • Ingegneria della piattaforma dati – Questo team gestisce i data lake aziendali, la raccolta dei dati, la curatela dei dati e la governance dei dati
  • Ingegneria della piattaforma ML – Questo team opera a livello di piattaforma ML su LOB per fornire servizi di infrastruttura ML condivisi come il provisioning dell’infrastruttura ML, il tracciamento degli esperimenti, la governance dei modelli, la distribuzione e l’osservabilità

La seguente tabella dettaglia quale divisione ha accesso primario e accesso secondario per ciascun modulo in base ai personaggi target del modulo.

Numero Modulo Moduli Accesso Primario Accesso Secondario Personaggi Target Numero di Account
1 Fondamenti di multi-account Ingegneria cloud centrale Singole LOB
  • Amministratore di Cloud
  • Cloud Engineer
Pochi
2 Fondamenti del data lake Ingegneria cloud centrale o della piattaforma dati Singole LOB
  • Amministratore del data lake
  • Data Engineer
Multipli
3 Servizi della piattaforma ML Ingegneria cloud centrale o della piattaforma ML Singole LOB
  • ML Platform Admin
  • ML Team Lead
  • ML Engineer
  • ML Governance Lead
Uno
4 Sviluppo dei casi d’uso ML Singole LOB Ingegneria cloud centrale o della piattaforma ML
  • Data Scientist
  • Data Engineer
  • ML Team Lead
  • ML Engineer
Multipli
5 Operazioni ML Ingegneria cloud centrale o della piattaforma ML Singole LOB
  • ML Engineer
  • ML Team Lead
  • Data Scientist
Multipli
6 Archivio delle funzionalità centralizzato Ingegneria cloud centrale o della piattaforma dati Singole LOB
  • Data Engineer
  • Data Scientist
Uno
7 Logging e osservabilità Ingegneria cloud centrale Singole LOB
  • Amministratore di Cloud
  • IT Auditor
Uno
8 Costo e reportistica Singole LOB Ingegneria della piattaforma centrale
  • Esecutivi LOB
  • ML Manager
Uno

Conclusione

In questo post, abbiamo introdotto un framework per gestire il ciclo di vita dell’apprendimento automatico su larga scala che ti aiuta a implementare carichi di lavoro ML ben strutturati che incorporano controlli di sicurezza e governance. Abbiamo discusso di come questo framework adotti un approccio olistico per la costruzione di una piattaforma di apprendimento automatico, considerando la governance dei dati, la governance del modello e i controlli a livello aziendale. Ti incoraggiamo a sperimentare con il framework e i concetti presentati in questo post e a condividere i tuoi feedback.