GenAIOps Evoluzione del framework MLOps
GenAIOps Evolution of the MLOps framework
L’IA generativa richiede nuove capacità di implementazione e monitoraggio

Indietro nel 2019, ho pubblicato un blog su LinkedIn dal titolo “Perché hai bisogno di ML Ops per un’innovazione di successo”. Ora, andando avanti fino ad oggi, rendere operativi modelli analitici, di machine learning (ML) e di intelligenza artificiale (AI) è ancora una sfida per molte organizzazioni. Tuttavia, va detto che la tecnologia è evoluta e sono nate nuove aziende per aiutare a risolvere i problemi legati all’implementazione, al monitoraggio e all’aggiornamento dei modelli in ambienti di produzione. Tuttavia, con i recenti progressi dell’IA generativa che utilizza grandi modelli di linguaggio (LLM) come GPT-4 di OpenAI, PaLM 2 di Google, LLaMA di Meta e GitHub Copilot, le organizzazioni si sono affrettate a capire il valore, i costi, i tempi di implementazione e i rischi associati ai LLM. Le aziende dovrebbero procedere con cautela poiché siamo solo all’inizio di questo percorso e direi che la maggior parte delle organizzazioni non è ancora pronta per la messa a punto, l’implementazione, il monitoraggio e la manutenzione dei LLM.
Cos’è MLOps?
Le operazioni di machine learning (chiamate anche MLOps) possono essere definite come:
MLOps è un processo continuo, collaborativo e interfunzionale che si concentra sull’operazionalizzazione della scienza dei dati, gestendo modelli statistici, di scienza dei dati e di machine learning come artefatti software riutilizzabili e altamente disponibili, tramite un processo di implementazione ripetibile. Include aspetti gestionali unici che comprendono l’elaborazione dei modelli, la scalabilità, la manutenzione, l’audit e la governance, nonché il monitoraggio continuo dei modelli in produzione per garantire che continuino a fornire un valore commerciale positivo man mano che le condizioni sottostanti cambiano.[1]
Ora che abbiamo una chiara definizione di MLOps, parliamo di perché è importante per le organizzazioni.
- Top articoli di Computer Vision durante la settimana dal 10/7 al 16/7
- Top 10 Strumenti di Deep Learning che Devi Conoscere nel 2023
- Le due facce dell’allineamento dell’IA
Perché è importante MLOps?
Nell’attuale ambiente aziendale guidato dagli algoritmi, l’importanza di MLOps non può essere sottovalutata. Poiché le organizzazioni si affidano a modelli di ML sempre più sofisticati per guidare la presa di decisioni quotidiana e l’efficienza operativa, diventa fondamentale disporre di un sistema robusto, scalabile ed efficiente per implementare, gestire, monitorare e aggiornare questi modelli. MLOps fornisce un quadro e un insieme di processi per la collaborazione tra scienziati dei dati e informatici, che sviluppano i modelli, e i team delle operazioni IT, che li implementano, gestiscono e mantengono, garantendo che i modelli siano affidabili, aggiornati e offrano un valore commerciale.
Principali capacità di MLOps
In generale, le funzionalità di MLOps includono flussi di lavoro di machine learning automatizzati, versionamento del modello, monitoraggio del modello e governance del modello.
● Flussi di lavoro automatizzati semplificano il processo di addestramento, convalida e implementazione dei modelli, riducendo lo sforzo manuale e aumentando la velocità.
● Versionamento del modello consente di tracciare le modifiche e mantenere un registro delle iterazioni del modello.
● Monitoraggio del modello è fondamentale per garantire che i modelli si comportino come previsto nei sistemi di produzione.
● Governance del modello garantisce la conformità alle normative e alle politiche organizzative.
Insieme, queste capacità consentono alle organizzazioni di operazionalizzare ML e AI su larga scala, generando valore commerciale e vantaggio competitivo per le loro organizzazioni.
MLOps: Metriche e KPI
Per garantire che i modelli si comportino come previsto e offrano previsioni ottimali nei sistemi di produzione, esistono diversi tipi di metriche e indicatori chiave di prestazione (KPI) che vengono utilizzati per monitorarne l’efficacia. Parla con un data scientist e spesso evidenzierà le seguenti metriche:
● Metriche di performance del modello: Queste sono le metriche che misurano le performance predictive di un modello. Possono includere precisione, richiamo, F1 score, area sotto la curva ROC (AUC-ROC), errore assoluto medio (MAE), errore quadratico medio (MSE), ecc. La scelta della metrica dipende dal tipo di problema (classificazione, regressione, ecc.) e dal contesto aziendale.
● Data Drift: Questo misura quanto i dati di input nel flusso di lavoro di produzione si discostano dai dati su cui è stato addestrato il modello. Una significativa deviazione dei dati può indicare che le previsioni del modello potrebbero diventare meno affidabili nel tempo. Abbiamo visto un ottimo esempio di questo con quel piccolo “incidente” noto come COVID. Le abitudini dei consumatori e le norme aziendali sono cambiate all’improvviso, facendo crollare i modelli di tutti!
● Deriva del modello: Simile alla deriva dei dati, questo misura quanto cambia (spesso peggiorando) nel tempo le prestazioni del modello anziché misurare quanto la distribuzione dei dati si discosta dalla norma. Ciò può accadere se la distribuzione dei dati sottostanti cambia, causando una minore accuratezza delle ipotesi del modello.
● Distribuzione delle previsioni: Tenere traccia della distribuzione delle previsioni del modello può aiutare a individuare anomalie. Ad esempio, se un modello di classificazione binaria inizia improvvisamente a fare molte più previsioni positive del solito, potrebbe indicare un problema. Queste metriche spesso si allineano più strettamente con le metriche aziendali.
● Utilizzo delle risorse: L’utilizzo delle risorse IT include metriche come l’utilizzo della CPU, l’utilizzo della memoria e la latenza. Queste metriche sono importanti per garantire che il modello funzioni in modo efficiente e all’interno dei vincoli infrastrutturali e architetturali del sistema.
● Metriche aziendali: Le più importanti di tutte le metriche, queste metriche misurano l’impatto del modello sui risultati aziendali. Potrebbero includere metriche come il fatturato, il tasso di churn dei clienti, il tasso di conversione e, in generale, i tassi di risposta. Queste metriche aiutano a valutare se il modello sta fornendo il valore aziendale previsto.
Quindi, ora che abbiamo una comprensione a livello generale di MLOps, perché è importante, le capacità chiave e le metriche, come si relaziona tutto questo all’IA generativa?
IA generativa: principali casi d’uso cross-funzionali
Prima che l’IA generativa diventasse mainstream, le organizzazioni avevano principalmente implementato sistemi di intelligenza artificiale che agivano su dati strutturati e semistrutturati. Questi sistemi erano principalmente addestrati su numeri e generavano output numerici – previsioni, probabilità e assegnazioni di gruppo (pensate a segmentazione e clustering). In altre parole, addestravamo i nostri modelli di intelligenza artificiale su dati numerici storici come dati transazionali, comportamentali, demografici, tecnografici, firmografici, geospaziali e generati da macchine, e generavamo probabilità di churn, risposta o interazione con un’offerta. Questo non vuol dire che non facessimo uso di dati testuali, audio o video – lo facevamo; analisi del sentiment, registri di manutenzione delle attrezzature e altri; ma questi casi d’uso erano molto meno diffusi rispetto agli approcci basati su numeri. L’IA generativa ha un nuovo set di capacità che consentono alle organizzazioni di utilizzare i dati che hanno essenzialmente ignorato in tutti questi anni – dati testuali, audio e video.
Le utilizzazioni e le applicazioni sono molte, ma ho riassunto i principali casi d’uso cross-funzionali per l’IA generativa (fino ad oggi).
Generazione di contenuti
L’IA generativa può generare contenuti di qualità simili a quelli umani, dall’audio, ai video/immagini e al testo.
● Generazione di contenuti audio: l’IA generativa può creare tracce audio adatte a piattaforme di social media come YouTube o aggiungere commenti vocali basati su intelligenza artificiale al tuo contenuto scritto, migliorando l’esperienza multimediale. Infatti, i miei primi due TinyTechGuides hanno commenti vocali su Google Play che sono stati completamente generati da IA. Potevo scegliere l’accento, il sesso, l’età e il tempo e alcuni altri attributi chiave per i libri narrati dall’IA. Dai un’occhiata ai libri narrati dall’IA qui.
○ Intelligenza artificiale: una guida esecutiva per far funzionare l’IA per la tua azienda
○ Moderno marketing B2B: una guida del praticante per l’eccellenza del marketing
● Generazione di contenuti testuali: questa è probabilmente la forma più popolare di IA generativa al momento, dalle stesure di post di blog, agli aggiornamenti dei social media, alle descrizioni dei prodotti, alle bozze di email, alle lettere ai clienti, alle proposte di RFP, l’IA generativa può produrre facilmente una vasta gamma di contenuti testuali, risparmiando alle aziende tempo e risorse significative. Attenzione, però, solo perché il contenuto è generato e suona autorevole non significa che sia accurato dal punto di vista dei fatti.
● Generazione di immagini e video: abbiamo visto che questo sta lentamente maturando ad Hollywood, reso popolare dai personaggi generati dall’IA nella saga di Star Wars, fino al ringiovanimento di Harrison Ford nell’ultimo film di “Indiana Jones”, l’IA può creare immagini e film realistici. L’IA generativa può accelerare i servizi creativi generando contenuti per annunci pubblicitari, presentazioni e blog. Abbiamo visto aziende come Adobe e Canva impegnarsi in modo deciso nel settore dei servizi creativi.
● Generazione di codice software: l’IA generativa può generare codice software (come Python) e SQL che possono essere integrati nei sistemi di analisi e BI, nonché nelle stesse applicazioni di intelligenza artificiale. In effetti, Microsoft sta continuando la ricerca sull’uso di “libri di testo” per addestrare LLM a creare codice software più accurato.
Sommario dei contenuti e personalizzazione
Oltre a creare nuovi contenuti realistici per le aziende, l’IA generativa può anche essere utilizzata per riassumere e personalizzare i contenuti. Oltre a ChatGPT, aziende come Writer, Jasper e Grammarly si stanno rivolgendo alle funzioni di marketing e alle organizzazioni per il riassunto e la personalizzazione dei contenuti. Ciò consentirà alle organizzazioni di marketing di dedicare tempo a creare un calendario e un processo di contenuti ben ponderati e poi questi vari servizi possono essere ottimizzati per creare un numero apparentemente infinito di varianti del contenuto autorizzato in modo che possa essere consegnato alla persona giusta nel canale giusto al momento giusto.
Scoperta dei contenuti e Q&A
La terza area in cui l’IA generativa sta guadagnando terreno è la scoperta dei contenuti e le domande e risposte. Dal punto di vista del software di dati e analisi, vari fornitori stanno incorporando capacità di IA generativa per creare interfacce più naturali (in linguaggio semplice) al fine di facilitare la scoperta automatica di nuovi set di dati all’interno di un’organizzazione, nonché scrivere query e formule di set di dati esistenti. Questo consentirà agli utenti non esperti di business intelligence (BI) di fare domande semplici come “quali sono le mie vendite nella regione nord-est?” e poi approfondire e fare domande sempre più raffinate. Gli strumenti di BI e analisi generano automaticamente i grafici e le immagini pertinenti in base alla query.
Vediamo anche un aumento dell’utilizzo di questo nell’industria sanitaria e legale. Nel settore sanitario, l’IA generativa può analizzare grandi quantità di dati e aiutare a riassumere le note dei medici e personalizzare le comunicazioni e la corrispondenza con i pazienti tramite chatbot, email e simili. C’è un’attitudine a utilizzare l’IA generativa esclusivamente per le capacità diagnostiche, ma con l’intervento umano vedremo un aumento di questo utilizzo. Vedremo anche un aumento dell’utilizzo dell’IA generativa nel campo legale. Ancora una volta, un settore incentrato sui documenti, l’IA generativa sarà in grado di trovare rapidamente termini chiave all’interno dei contratti, aiutare nella ricerca legale, riassumere i contratti e creare documenti legali personalizzati per gli avvocati. McKinsey ha definito questo il “copilota legale”.
Ora che comprendiamo gli utilizzi principali associati all’IA generativa, passiamo alle principali preoccupazioni.
IA generativa: principali sfide e considerazioni
L’IA generativa, sebbene promettente, presenta una serie di ostacoli e possibili insidie. Le organizzazioni devono valutare attentamente diversi fattori prima di integrare la tecnologia di IA generativa nei loro processi aziendali. Le principali sfide comprendono:
● Problemi di accuratezza (allucinazioni): LLM può spesso generare informazioni fuorvianti o completamente false. Queste risposte possono sembrare credibili ma sono interamente inventate. Quali salvaguardie possono adottare le aziende per rilevare e prevenire queste informazioni errate?
● Bias: Le organizzazioni devono comprendere le fonti di bias nel modello e implementare strategie di mitigazione per controllarlo. Quali politiche aziendali o requisiti legali sono in atto per affrontare un potenziale bias sistematico?
● Deficit di trasparenza: Per molte applicazioni, soprattutto nei settori dei servizi finanziari, delle assicurazioni e della sanità, la trasparenza del modello è spesso un requisito aziendale. Tuttavia, LLM non è intrinsecamente spiegabile o prevedibile, portando a “allucinazioni” e ad altri possibili inconvenienti. Se la vostra azienda deve soddisfare gli auditor o i regolatori, dovete chiedervi: possiamo persino utilizzare LLM?
● Rischio di proprietà intellettuale (IP): I dati utilizzati per addestrare molti LLM fondamentali spesso includono informazioni disponibili pubblicamente: abbiamo visto cause legali per l’uso improprio di immagini (ad esempio, HBR – Generative AI Has an Intellectual Property Problem), musica (The Verge – AI Drake Just Set an Impossible Legal Trap for Google) e libri (LA Times – Sara Silverman and Other Bestselling Authors Sue MEta and OpenAI for Copyright Infringement). In molti casi, il processo di addestramento assorbe indiscriminatamente tutti i dati disponibili, portando a possibili cause legali per esposizione di IP e violazione del copyright. Questo solleva la domanda: quali dati sono stati utilizzati per addestrare il vostro modello di base e quali dati sono stati utilizzati per ottimizzarlo?
● Cybersecurity e frodi: Con l’uso diffuso dei servizi di IA generativa, le organizzazioni devono essere pronte all’eventuale uso improprio da parte di attori malintenzionati. L’IA generativa può essere utilizzata per creare deepfake per attacchi di ingegneria sociale. Come può la vostra organizzazione garantire che i dati utilizzati per l’addestramento non siano stati manomessi da truffatori e attori malintenzionati?
● Impatto ambientale: L’addestramento di modelli di intelligenza artificiale su larga scala richiede risorse informatiche significative, il che comporta un consumo energetico sostanziale. Ciò ha implicazioni per l’ambiente, poiché l’energia utilizzata spesso proviene da fonti non rinnovabili, contribuendo alle emissioni di carbonio. Per le organizzazioni che hanno in atto iniziative ambientali, sociali e di governance (ESG), come terrà conto il vostro programma dell’uso di LLM?
Ora, ci sono molte altre cose che le aziende devono considerare, ma le principali sono state prese in considerazione. Ciò solleva la domanda successiva: come operazionalizzare i modelli di IA generativa?
GenAIOps: è necessario un nuovo insieme di capacità
Ora che abbiamo una migliore comprensione dell’IA generativa, degli utilizzi chiave, delle sfide e delle considerazioni, passiamo a come deve evolversi il framework di MLOps. Ho coniato il termine GenAIOps e, per quanto ne so, sono il primo a farlo.
Diamo un’occhiata al processo ad alto livello per la creazione di LLM; il grafico è stato adattato da “Opportunità e rischi dei modelli di base”.
Figura 1.1: Processo per addestrare e distribuire LLM

Nell’immagine sopra vediamo che i dati vengono creati, raccolti, curati e quindi i modelli vengono addestrati, adattati e distribuiti. Alla luce di ciò, quali considerazioni dovrebbero essere fatte per un framework GenAIOps completo?
GenAIOps: Checklist
Recentemente, Stanford ha pubblicato un articolo “I fornitori di modelli di base sono conformi alla bozza del regolamento AI dell’UE? Dopo averlo letto, ho usato quello come ispirazione per generare la checklist del framework GenAIOps di seguito.
Dati:
○ Quali fonti di dati sono state utilizzate per addestrare il modello?
○ Come sono stati generati i dati utilizzati per addestrare il modello?
○ Gli addestratori avevano il permesso di utilizzare i dati nel contesto?
○ I dati contengono materiale protetto da copyright?
○ I dati contengono informazioni sensibili o riservate?
○ I dati contengono dati individuali o PII?
○ I dati sono stati avvelenati? Sono soggetti ad avvelenamento?
○ I dati erano autentici o includevano contenuti generati dall’IA?
Modellazione:
○ Quali limitazioni ha il modello?
○ Ci sono rischi associati al modello?
○ Quali sono i punti di riferimento delle prestazioni del modello?
○ Possiamo ricreare il modello se fosse necessario?
○ I modelli sono trasparenti?
○ Quali altri modelli di base sono stati utilizzati per creare il modello attuale?
○ Quanta energia e risorse di calcolo sono state utilizzate per addestrare il modello?
Distribuzione:
○ Dove saranno distribuiti i modelli?
○ Le applicazioni di distribuzione target sono consapevoli di utilizzare l’IA generativa?
○ Disponiamo della documentazione appropriata per soddisfare gli ispettori e i regolatori?
Ora che abbiamo un punto di partenza, diamo un’occhiata più da vicino alle metriche
GenAIOps: Metriche e Considerazioni sul Processo
Utilizzando le metriche e gli indicatori chiave di prestazione di MLOps come punto di partenza, esaminiamo come queste possono essere applicate alle metriche dell’IA generativa. Speriamo che GenAIOps contribuisca ad affrontare le sfide specifiche dell’IA generativa, come la generazione di contenuti falsi, falsi, ingannevoli o tendenziosi.
Metriche delle Prestazioni del Modello
Nel contesto dell’IA generativa, come potrebbe un’organizzazione misurare le prestazioni del modello? Sospetto che la maggior parte delle organizzazioni probabilmente utilizzerà un LLM pre-addestrato disponibile commercialmente e utilizzerà i propri dati per ottimizzare e adattare i propri modelli.
Ora, ci sono certamente metriche di prestazione tecniche associate a LLM basati su testo come BLEU, ROUGE o METEOR e ce ne sono certamente altre per immagini, audio e video, ma io sono più preoccupato per la generazione di contenuti falsi, falsi, ingannevoli o tendenziosi. Quali controlli può mettere in atto un’organizzazione per monitorare, rilevare e mitigare queste situazioni?
Sicuramente abbiamo visto la proliferazione di propaganda in passato e giganti dei social media come Facebook, Google e Twitter non sono riusciti ad implementare uno strumento che impedisca in modo coerente e affidabile che ciò accada. Se questo è il caso, come misurerà la sua organizzazione le prestazioni del modello di IA generativa? Avrà dei verificatori di fatti? E per immagini, audio e video? Come può misurare le prestazioni di questi modelli?
Deriva dei Dati
Dato che i modelli richiedono risorse e tempo significativi per essere addestrati, come determineranno i creatori del modello se i dati del mondo stanno cambiando e abbiamo bisogno di un nuovo modello? Come capirà un’organizzazione se i suoi dati si stanno evolvendo al punto da dover ricalibrare il proprio modello? Questo è relativamente semplice con dati numerici, ma penso che stiamo ancora imparando come gestire dati non strutturati come testo, immagini, audio e video.
Supponendo che possiamo creare un meccanismo per regolare periodicamente i nostri modelli, si dovrebbe anche avere un controllo per rilevare se i dati in deriva sono dovuti a eventi reali o a una proliferazione di contenuti generati dall’IA? Nel mio post su AI Entropy: The Vicious Circle of AI-Generated Content, ho discusso del fatto che quando addestri l’IA sull’IA, diventa sempre più stupida nel tempo.
Deriva del modello
Similmente alle tue preoccupazioni sulla performance del modello e sulla deriva dei dati, come la tua organizzazione rileverà e comprenderà se la performance del tuo modello inizia a derivare? Avrai osservatori umani dell’output o invierai sondaggi agli utenti finali? Forse uno dei modi più semplici per farlo è non solo mettere in atto controlli per monitorare la performance tecnica di un modello, ma la tua azienda dovrebbe sempre tracciare gli output del modello. Questo va senza dire, ma stai usando un modello per risolvere una specifica sfida aziendale e hai bisogno di monitorare le metriche aziendali. Stai riscontrando un aumento degli abbandoni del carrello, un aumento / diminuzione delle chiamate al servizio clienti o un cambiamento nelle valutazioni della soddisfazione dei clienti?
Distribuzione delle previsioni
Di nuovo, penso che abbiamo strumenti e tecniche decenti per monitorare questo per previsioni basate su numeri. Ma ora che ci stiamo occupando di testo, immagini, audio e video, come pensi di monitorare le distribuzioni delle previsioni? Saremo in grado di capire se l’output del modello al suo target di implementazione sta generando correlazioni spurie? In tal caso, cosa puoi mettere in atto per misurare questo fenomeno?
Utilizzo delle risorse
In apparenza, questo sembra relativamente semplice. Tuttavia, man mano che l’uso generativo cresce all’interno di un’azienda, la tua organizzazione avrà bisogno di un sistema per tracciare e gestire il suo utilizzo. I modelli di prezzo stanno ancora evolvendo nel segmento dell’IA generativa, quindi dobbiamo stare attenti qui. Similmente a quanto stiamo vedendo nello spazio dei data warehouse cloud, stiamo iniziando a vedere i costi sfuggire al controllo. Quindi, se la tua azienda ha una tariffazione basata sull’uso, come metterai in atto controlli finanziari e meccanismi di governance per assicurarti che i tuoi costi siano prevedibili e non sfuggano al controllo?
Metriche aziendali
Ho già fatto questo punto in precedenza, ma il set più importante di monitor e controlli che puoi mettere in atto è legato alle tue metriche aziendali. La tua azienda deve essere sempre vigile nel monitorare come i tuoi modelli stanno effettivamente influenzando il tuo business quotidianamente. Se stai usando questo per processi aziendali critici, quali garanzie SLA hai in atto per garantire la disponibilità?
Il bias è una grande preoccupazione con qualsiasi modello di IA, ma potrebbe essere ancora più acuto con l’IA generativa. Come rileverai se i tuoi output di modello sono influenzati e se perpetuano disuguaglianze? C’è stato un ottimo articolo su questo di Tim O’Reilly intitolato We Have Already Let the Genie Out of the Bottle che ti incoraggio a leggere.
Dal punto di vista della proprietà intellettuale, come garantirai che le informazioni proprietarie, sensibili o personali non sfuggano o fuoriescano dalla tua organizzazione? Date le numerose controversie sulle violazioni di copyright che si stanno verificando ora, questi sono importanti fattori che la tua organizzazione dovrà affrontare. Dovresti chiedere ai fornitori di garantire che queste informazioni non siano presenti nel tuo modello, come nel caso di Adobe (FastCompany – Adobe è così sicura che il suo Firefly generative AI non violi il copyright che coprirà le tue spese legali)? Ora, è bello che coprano le tue spese legali, ma a quale rischio di reputazione espone la tua azienda? Se perdi la fiducia dei tuoi clienti, potresti non riuscire mai a riconquistarla.
Infine, l’avvelenamento dei dati è certamente un argomento caldo. Quando usi i dati della tua organizzazione per adattare e migliorare il modello, come puoi garantire che i dati non siano tossici? Come puoi garantire che i dati utilizzati per addestrare i modelli fondamentali non siano stati avvelenati?
Riassunto
In definitiva, l’obiettivo di questo non era fornire metodi e metriche specifici su come affrontare GenAIOps, ma piuttosto porre una serie di domande su ciò che le organizzazioni devono considerare prima di implementare un LLM. Come per qualsiasi cosa, l’IA generativa ha un grande potenziale per aiutare la tua organizzazione a ottenere un vantaggio competitivo, ma presenta anche una serie di sfide e rischi che devono essere affrontati. Alla fine, GenAIOps dovrà avere un insieme di principi e capacità che coprano sia l’organizzazione che adotta che il fornitore che fornisce il LLM. Nelle parole di Spiderman, con grande potere viene grande responsabilità.
Se vuoi saperne di più sull’Intelligenza Artificiale, dai un’occhiata al mio libro Artificial Intelligence: An Executive Guide to Make AI Work for Your Business su Amazon.
[1] Sweenor, David, Steven Hillion, Dan Rope, Dev Kannabiran, Thomas Hill e Michael O’Connell. 2020. ML Ops: Operationalizing Data Science. O’Reilly Media. https://www.oreilly.com/library/view/ml-ops-operationalizing/9781492074663/.