Crea un Gateway Generativo di IA per consentire il consumo sicuro e conforme dei modelli di fondazione.

Crea un Gateway Generativo di Intelligenza Artificiale per garantire un consumo sicuro e conforme dei modelli di fondazione.

Nel mondo in rapida evoluzione dell’intelligenza artificiale (AI) e dell’apprendimento automatico (ML), i modelli di base (FMs) hanno mostrato un enorme potenziale per stimolare l’innovazione e sbloccare nuovi casi d’uso. Tuttavia, poiché le organizzazioni sfruttano sempre di più il potere dei FMs, le preoccupazioni riguardanti la privacy dei dati, la sicurezza, i costi aggiuntivi e la conformità sono diventate fondamentali. Settori regolamentati e orientati alla conformità, come i servizi finanziari, l’assistenza sanitaria e le scienze della vita e gli istituti governativi, si trovano di fronte a sfide uniche nel garantire il consumo sicuro e responsabile di questi modelli. Per trovare un equilibrio tra agilità, innovazione e aderenza agli standard, diventa essenziale una piattaforma robusta. In questo post, proponiamo Generative AI Gateway come piattaforma per un’azienda che permette l’accesso sicuro ai FMs per l’innovazione rapida.

In questo post, definiamo cosa sia Generative AI Gateway, i suoi vantaggi e come architetturarlo su AWS. Un Generative AI Gateway può aiutare le grandi aziende a controllare, standardizzare e governare il consumo di FM da servizi come Amazon Bedrock, Amazon SageMaker JumpStart, fornitori di modelli di terze parti (come Anthropic e le loro API) e altri fornitori di modelli al di fuori dell’ecosistema AWS.

Cos’è Generative AI Gateway?

Per le API tradizionali (come REST o gRPC), API Gateway si è affermato come un pattern di design che consente alle aziende di standardizzare e controllare come le API sono esternalizzate e consumate. Inoltre, Registri API hanno abilitato la governance centralizzata, il controllo e la scoperta delle API.

In modo simile, Generative AI Gateway è un pattern di design che mira ad ampliare i pattern di API Gateway e Registries con considerazioni specifiche per il servizio e il consumo di modelli di base in ambienti aziendali di grandi dimensioni. Ad esempio, gestire le allucinazioni, gestire IP aziendali specifici ed EULA (End User License Agreements), nonché moderare le generazioni, sono nuove responsabilità che vanno oltre lo scopo degli API Gateway tradizionali.

Oltre ai requisiti specifici per l’IA generativa, il panorama tecnologico e normativo per i modelli di base sta cambiando rapidamente. Ciò crea sfide uniche per le organizzazioni nel bilanciare la velocità dell’innovazione e la conformità. Ad esempio:

  • Lo stato dell’arte dei modelli, delle architetture e delle migliori pratiche sta cambiando costantemente. Ciò significa che le aziende hanno bisogno di un accoppiamento leggero tra i client delle app (consumatori di modelli) e i punti di inferenza dei modelli, che garantisce uno switch facile tra i modelli linguistici di grande portata (LLM), visione o multi-modalità se necessario. Uno strato di astrazione sui punti di inferenza dei modelli fornisce tale accoppiamento leggero.
  • L’incertezza normativa, soprattutto sulla proprietà intellettuale e la privacy dei dati, richiede osservabilità, monitoraggio e tracciamento delle generazioni. Ad esempio, se le applicazioni basate su Retrieval Augmented Generation (RAG) includono accidentalmente dati personali identificabili (PII) nel contesto, tali problemi devono essere rilevati in tempo reale. Ciò diventa un problema se le grandi aziende con più team di scienze dei dati utilizzano piattaforme personalizzate e distribuite per il rilascio di modelli di base.

Generative AI Gateway mira a risolvere questi nuovi requisiti fornendo gli stessi vantaggi dei tradizionali API Gateway e Registries, come la governance centralizzata e l’osservabilità e il riutilizzo di componenti comuni.

Panoramica della soluzione

In particolare, Generative AI Gateway fornisce i seguenti componenti chiave:

  • Uno strato di astrazione del modello per i FMs approvati
  • Un API Gateway per i FMs (AI Gateway)
  • Un playground per i FMs per la scoperta interna dei modelli

Il diagramma seguente illustra l’architettura della soluzione.

Per una maggiore resilienza, la soluzione suggerita può essere implementata in un ambiente Multi-AZ. Le linee tratteggiate nel diagramma precedente rappresentano i confini della rete, anche se l’intera soluzione può essere implementata in un singolo VPC.

Strato di astrazione del modello

Lo strato di astrazione del modello serve come fondamento per l’accesso sicuro e controllato al pool di FMs dell’organizzazione. Lo strato fornisce una singola fonte di verità su quali modelli sono disponibili per l’azienda, il team e l’utente, nonché su come accedere a ciascun modello memorizzando le informazioni sugli endpoint per ogni modello.

Questo strato serve come base per il consumo sicuro, conforme e agile dei FMs tramite Generative AI Gateway, promuovendo pratiche di IA responsabili all’interno dell’organizzazione.

Il layer stesso è composto da quattro componenti principali:

  • Registro endpoint FM – Dopo che le FM sono valutate, approvate e implementate per l’uso, i loro endpoint vengono aggiunti al registro endpoint FM, un repository centralizzato di tutti gli endpoint API implementati o accessibili esternamente. Il registro contiene metadati sugli endpoint dei servizi di intelligenza artificiale generativa consumati dall’organizzazione, che si tratti di una FM implementata internamente o di un’API di intelligenza artificiale generativa fornita esternamente da un fornitore. I metadati includono informazioni sugli endpoint dei servizi per ogni modello di base e la loro configurazione, nonché le politiche di accesso (basate sul ruolo, sul team, ecc.).
  • Archivio delle politiche e motore dei modelli – Per consentire l’utilizzo di FM in conformità, il layer di astrazione del modello deve tenere traccia delle regole qualitative e quantitative per le generazioni del modello. Ad esempio, alcune generazioni potrebbero essere soggette a determinate normative come il CCPA (California Consumer Privacy Act), che richiede un comportamento di generazione personalizzato per geografia. Pertanto, le politiche dovrebbero essere consapevoli del paese e della geografia, per garantire la conformità attraverso cambiamenti normativi in diversi luoghi.
  • Layer di identità – Dopo che i modelli sono disponibili per essere utilizzati, il layer di identità gioca un ruolo fondamentale nella gestione dell’accesso, garantendo che solo gli utenti o i ruoli autorizzati all’interno dell’organizzazione possano interagire con specifiche FM attraverso il Gateway AI. I meccanismi di controllo degli accessi basati sui ruoli (RBAC) aiutano a definire le autorizzazioni di accesso dettagliate, garantendo che gli utenti possano accedere ai modelli in base ai loro ruoli e responsabilità.
  • Integrazione con i registri dei modelli forniti dai fornitori – Le FM possono essere disponibili in modi diversi, sia implementate in account di organizzazioni sotto VPC che disponibili come API attraverso diversi fornitori. Dopo aver superato i controlli iniziali menzionati in precedenza, il registro degli endpoint contiene le informazioni necessarie su questi modelli dai fornitori e le loro versioni esposte tramite API. Ciò astrae le complessità sottostanti dall’utente finale.

Per popolare il registro degli endpoint dei modelli AI, il team di Generative AI Gateway collabora con un team multifunzionale di esperti di dominio e stakeholder delle linee di business per selezionare e integrare con attenzione le FM nella piattaforma. Durante questa fase di integrazione, vengono attentamente considerati fattori come le prestazioni del modello, i costi, l’allineamento etico, la conformità alle normative del settore e la reputazione del fornitore. Effettuando valutazioni approfondite, le organizzazioni si assicurano che le FM selezionate siano in linea con le proprie specifiche esigenze aziendali e rispettino i requisiti di sicurezza e privacy.

Il diagramma seguente illustra l’architettura di questo layer.

MAL

I servizi AWS possono aiutare nella creazione di un layer di astrazione del modello (MAL) come segue:

  1. Il gestore di intelligenza artificiale generativa crea una tabella di registrazione utilizzando Amazon DynamoDB. Questa tabella viene popolata con informazioni sulle FM, sia implementate internamente nell’account dell’organizzazione che accessibili tramite un’API da fornitori. La tabella conterrà l’endpoint, i metadati e i parametri di configurazione per il modello. Può anche archiviare le informazioni se è necessaria una funzione personalizzata di AWS Lambda per invocare la FM sottostante con clienti API specifici del fornitore.
  2. Il gestore di intelligenza artificiale generativa determina quindi l’accesso per l’utente, aggiunge limiti, aggiunge una politica per il tipo di generazioni che l’utente può eseguire (immagini, testo, multimodalità, ecc.) e aggiunge altre politiche specifiche dell’organizzazione, come l’IA responsabile e i filtri dei contenuti che saranno aggiunti come tabella di politiche separata in DynamoDB.
  3. Quando l’utente invia una richiesta tramite il Gateway AI, viene instradato a Amazon Cognito per determinare l’accesso per il client. Un autorizzatore Lambda aiuta a determinare l’accesso dal layer di identità, che sarà gestito dalla politica della tabella DynamoDB. Se il client ha l’accesso, vengono recuperati dall’AWS Identity and Access Management (IAM) il ruolo o la chiave API pertinenti per l’endpoint FM da AWS Secrets Manager. Inoltre, vengono esplorati il registro dei modelli per trovare l’endpoint rilevante e la configurazione in questa fase.
  4. Dopo aver ottenuto tutte le informazioni necessarie relative alla richiesta, come l’endpoint, la configurazione, le chiavi di accesso e la funzione personalizzata, vengono restituite al Gateway AI per essere utilizzate con la funzione Lambda del dispatcher che chiama un endpoint di modello specifico.

AI Gateway

L’AI Gateway è un componente fondamentale che facilita il consumo sicuro ed efficiente delle FMs all’interno dell’organizzazione. Funziona sopra il livello di astrazione dei modelli, fornendo un’interfaccia basata su API agli utenti interni, incluse sviluppatori, data scientist e analisti aziendali.

Attraverso questa interfaccia utente facile da usare (basata su programmazione e su un’interfaccia utente playground), gli utenti interni possono accedere, interagire e utilizzare senza problemi i modelli curati dell’organizzazione, garantendo che vengano resi disponibili modelli pertinenti in base alle loro identità e responsabilità. Un AI Gateway può comprendere quanto segue:

  • Un’interfaccia API unificata per tutte le FMs – L’AI Gateway presenta un’interfaccia API unificata e un kit di sviluppo software che astrae le complessità tecniche sottostanti, consentendo agli utenti interni di interagire senza sforzo con il pool di FMs dell’organizzazione. Gli utenti possono utilizzare le API per richiamare diversi modelli ed inviare input per la generazione dei modelli.
  • Gestione delle quote, dei limiti e dell’uso delle API – Questo include quanto segue:
    • Quote di utilizzo – Per consentire una corretta allocazione delle risorse e il controllo dei costi, l’AI Gateway fornisce agli utenti informazioni sulle quote di utilizzo per ogni modello. Questa trasparenza consente agli utenti di gestire efficacemente l’uso delle risorse di intelligenza artificiale, garantendo un utilizzo ottimale e prevenendo gli sprechi di risorse.
    • Richiesta di hosting dedicato – Riconoscendo l’importanza dell’allocazione delle risorse per casi d’uso critici, l’AI Gateway consente agli utenti di richiedere un hosting dedicato per modelli specifici. Gli utenti con applicazioni ad alta priorità o sensibili alla latenza possono utilizzare questa funzionalità per garantire un ambiente costante e dedicato per le loro esigenze di inferenza del modello.
  • Controllo degli accessi e governance dei modelli – Utilizzando il livello di identità del livello di astrazione del modello, l’AI Gateway applica rigorosi controlli di accesso. L’identità e i ruoli assegnati di ciascun utente determinano i modelli cui possono accedere. Questo controllo dell’accesso granulare garantisce che agli utenti vengano presentati solo i modelli pertinenti ai loro ambiti, mantenendo la sicurezza e la privacy dei dati promuovendo al tempo stesso un utilizzo responsabile dell’intelligenza artificiale.
  • Contenuto, privacy ed applicazione delle politiche di intelligenza artificiale responsabile – L’AI Gateway applica sia la pre-elaborazione che la post-elaborazione di tutti gli input al modello, nonché la generazione dei modelli per filtrare e moderare eventuali contenuti tossici, violenti, dannosi, dati PII, ecc. specificati dal livello di astrazione dei modelli per il filtraggio. La centralizzazione di questa funzione nell’AI Gateway garantisce l’applicazione delle politiche e agevola le attività di audit.

Integrando l’AI Gateway con il livello di astrazione del modello e incorporando funzionalità come il controllo degli accessi basato sull’identità, l’elenco dei modelli e la visualizzazione dei metadati, il monitoraggio delle quote di utilizzo e le richieste di hosting dedicate, le organizzazioni possono creare una potente piattaforma di consumo di intelligenza artificiale.

Inoltre, l’AI Gateway fornisce i benefici standard delle API Gateways, come ad esempio:

  • Meccanismo di controllo dei costi – Per ottimizzare l’allocazione delle risorse e gestire i costi in modo efficace, può essere implementato un robusto meccanismo di controllo dei costi. Questo meccanismo monitora l’uso delle risorse, i costi di inferenza dei modelli e le spese di trasferimento dati. Consente alle organizzazioni di ottenere informazioni sull’utilizzo delle risorse di intelligenza artificiale generativa, identificare opportunità di risparmio dei costi e prendere decisioni informate sull’allocazione delle risorse.
  • Cache – L’inferenza da FMs può diventare costosa, soprattutto durante le fasi di test e di sviluppo dell’applicazione. Un livello di cache può contribuire a ridurre quel costo e persino migliorare la velocità mantenendo una cache per le richieste frequenti. La cache alleggerisce anche il carico di inferenza sull’endpoint, consentendo altre richieste.
  • Osservabilità – Questo gioca un ruolo cruciale nel registrare le attività svolte sull’AI Gateway e sul Discovery Playground. I log dettagliati registrano le interazioni degli utenti, le richieste dei modelli e le risposte del sistema. Questi log forniscono informazioni preziose per la risoluzione dei problemi, il monitoraggio dei comportamenti degli utenti e il rafforzamento della trasparenza e dell’accountability.
  • Quote, limiti di velocità e throttling – L’aspetto della governance di questo livello può prevedere l’applicazione di quote, limiti di velocità e throttling per gestire e controllare l’uso delle risorse di intelligenza artificiale. Le quote definiscono il numero massimo di richieste che un utente o un team possono fare entro un periodo di tempo specifico, garantendo una distribuzione equa delle risorse. I limiti di velocità impediscono un utilizzo eccessivo delle risorse imponendo un tasso massimo di richieste. Il throttling mitiga il rischio di sovraccarico del sistema controllando la frequenza delle richieste in ingresso, prevenendo interruzioni del servizio.
  • Tracciabili di audit e monitoraggio dell’utilizzo – Il team assume la responsabilità di mantenere tracciabili di audit dettagliate di tutto l’ecosistema. Questi log consentono un monitoraggio completo dell’uso, consentendo al team centrale di tracciare le attività degli utenti, identificare rischi potenziali e mantenere la trasparenza nel consumo di intelligenza artificiale.

Il seguente diagramma illustra questa architettura.

AI - Gateway

I servizi AWS possono aiutare nella creazione di un gateway AI come segue:

  1. L’utente effettua la richiesta utilizzando Amazon API Gateway, che viene indirizzata al livello di astrazione del modello dopo che la richiesta è stata autenticata e autorizzata.
  2. Il gateway AI impone limiti di utilizzo per la richiesta di ciascun utente utilizzando politiche di limiti di utilizzo restituite dalla MAL. Per facilitare l’applicazione di tali limiti, utilizziamo la capacità nativa di API Gateway per l’applicazione del conteggio. Inoltre, eseguiamo le normali convalidazioni di API Gateway sulla richiesta utilizzando uno schema JSON.
  3. Dopo aver convalidato i limiti di utilizzo, la configurazione del punto di arrivo e le credenziali ricevute dalla MAL formano il payload effettivo per l’inferenza utilizzando interfacce native fornite da ciascuno dei fornitori di modelli approvati. Il livello di invio normalizza le differenze tra gli SDK e le interfacce API dei fornitori per fornire un’interfaccia unificata al client. Problemi come i cambiamenti DNS, il bilanciamento del carico e la memorizzazione nella cache potrebbero essere gestiti anche da un servizio di invio più sofisticato.
  4. Dopo aver ricevuto la risposta dai punti di arrivo del modello sottostante, le funzioni di postelaborazione Lambda utilizzano le politiche della MAL relative ai contenuti (tossicità, nudità, ecc.) e alla conformità (CCPA, GDPR, ecc.) per filtrare o mascherare le generazioni nel loro complesso o in parte.
  5. Durante il ciclo di vita della richiesta, tutte le generazioni e i payload di inferenza vengono registrati tramite Amazon CloudWatch Logs, che possono essere organizzati tramite gruppi di registrazione in base ai tag e alle politiche recuperate da MAL. Ad esempio, i log possono essere separati per fornitore di modelli e zona geografica. Ciò consente ulteriori miglioramenti e risoluzione dei problemi del modello.
  6. Infine, un audit retroattivo è disponibile tramite AWS CloudTrail.

Discovery Playground

Il componente finale consiste nell’introdurre un Discovery Playground, che presenta un’interfaccia utente intuitiva costruita sopra il livello di astrazione del modello e il gateway AI, offrendo un ambiente dinamico per consentire agli utenti di esplorare, testare e sfruttare appieno il potenziale dei modelli disponibili. Oltre a fornire accesso alle capacità di intelligenza artificiale, il playground consente agli utenti di interagire con i modelli utilizzando un’interfaccia utente ricca, fornire feedback preziosi e condividere le loro scoperte con altri utenti all’interno dell’organizzazione. Offre le seguenti caratteristiche principali:

  • Interfaccia del playground – Puoi inserire facilmente prompt e ricevere output del modello in tempo reale. L’interfaccia semplifica il processo di interazione, rendendo l’esplorazione delle intelligenze artificiali generative accessibile a utenti con diversi livelli di competenza tecnica.
  • Schede del modello – Puoi accedere a un elenco completo dei modelli disponibili insieme ai relativi metadati. Puoi esplorare informazioni dettagliate su ciascun modello, come le sue capacità, le metriche di prestazioni e i casi d’uso supportati. Questa funzionalità facilita la presa di decisioni informate, consentendoti di selezionare il modello più adatto alle tue esigenze specifiche.
  • Mechanismo di feedback – Un aspetto differenziante del playground è il suo meccanismo di feedback, che ti consente di fornire commenti sugli output del modello. Puoi segnalare problemi come allucinazioni (informazioni fabbricate), linguaggio inappropriato o qualsiasi comportamento non voluto osservato durante le interazioni con i modelli.
  • Raccomandazioni per casi d’uso – Il Discovery Playground può essere progettato per facilitare l’apprendimento e la comprensione delle capacità dei modelli per diversi casi d’uso. Puoi sperimentare diversi prompt e scoprire quali modelli eccellono in scenari specifici.

Offrendo un’interfaccia utente ricca, schede del modello, meccanismo di feedback, raccomandazioni per casi d’uso e il negozio di esempi opzionale, il Discovery Playground diventa una piattaforma potente per l’esplorazione delle intelligenze artificiali generative e la condivisione delle conoscenze all’interno dell’organizzazione.

Considerazioni sul processo

Mentre i moduli precedenti del Generative AI Gateway offrono una piattaforma, questo livello è più pratico, garantendo il consumo responsabile e conforme delle intelligenze artificiali generative all’interno dell’organizzazione. Comprende ulteriori misure che vanno oltre gli aspetti tecnici, concentrandosi su considerazioni legali, pratiche e normative. Questo livello presenta responsabilità cruciali per il team centrale per affrontare la sicurezza dei dati, le licenze, le normative organizzative e le tracce di audit, favorendo una cultura di fiducia e trasparenza:

  • Sicurezza e privacy dei dati – Poiché le intelligenze artificiali generative possono elaborare vaste quantità di dati, la sicurezza e la privacy dei dati diventano preoccupazioni fondamentali. Il team centrale è responsabile dell’implementazione di robuste misure di sicurezza dei dati, inclusa la crittografia, i controlli di accesso e l’anonimizzazione dei dati. Si garantisce con diligenza la conformità alle normative sulla protezione dei dati, come GDPR, HIPAA o altre norme specifiche del settore, per proteggere le informazioni sensibili e la privacy degli utenti.
  • Monitoraggio dei dati – Dovrebbe essere istituito un sistema di monitoraggio completo dei dati per tracciare le informazioni in entrata e in uscita tramite l’AI Gateway e il Discovery Playground. Ciò include il monitoraggio dei prompt forniti dagli utenti e degli output del modello corrispondenti. Il meccanismo di monitoraggio dei dati consente all’organizzazione di osservare i modelli di dati, rilevare anomalie e garantire che le informazioni sensibili rimangano sicure.
  • Licenze e accordi dei modelli – Il team centrale dovrebbe guidare la gestione di licenze e accordi associati all’uso dei modelli. I modelli forniti dai fornitori possono essere accompagnati da specifici accordi di utilizzo, restrizioni d’uso o termini di licenza. Il team garantisce la conformità a tali accordi e mantiene un repository completo di tutte le licenze, garantendo una chiara comprensione dei diritti e delle limitazioni relative a ciascun modello.
  • Considerazioni etiche – Con l’avanzare dei sistemi di intelligenza artificiale, il team centrale assume la responsabilità di garantire allineamento etico nell’uso dell’IA. Valutano i modelli per potenziali pregiudizi, output dannosi o comportamenti non etici. Vengono adottati provvedimenti per mitigare tali problemi e promuovere uno sviluppo e una distribuzione responsabili dell’IA all’interno dell’organizzazione.
  • Adattamento proattivo – Per essere sempre all’avanguardia rispetto alle sfide emergenti e alle normative in continua evoluzione, il team centrale adotta un approccio proattivo alla governance. Aggiornano continuamente politiche, standard dei modelli e misure di conformità per allinearsi alle ultime pratiche del settore e requisiti legali. Ciò garantisce che l’ecosistema di IA dell’organizzazione rimanga conforme e rispetti gli standard etici.

Conclusion

Il Generative AI Gateway consente alle organizzazioni di utilizzare i modelli di base in modo responsabile e sicuro. Attraverso l’integrazione del livello di astrazione dei modelli, l’AI Gateway e il Discovery Playground dotato di monitoraggio, osservabilità, governance e sicurezza, conformità e livelli di audit, le organizzazioni possono trovare un equilibrio tra innovazione e conformità. L’AI Gateway ti dà il potere di accedere in modo trasparente a modelli selezionati, mentre il Discovery Playground favorisce l’esplorazione e il feedback. Il monitoraggio e la governance forniscono informazioni per una migliore allocazione delle risorse e una decisione proattiva. Con un focus sulla sicurezza, la conformità e le pratiche etiche dell’IA, il Generative AI Gateway apre le porte a un futuro in cui le applicazioni guidate dall’IA prosperano in modo responsabile, sbloccando nuovi orizzonti di possibilità per le organizzazioni.