Intelligenza Artificiale Generativa e il Futuro dell’Ingegneria dei Dati
Intelligenza Artificiale Generativa e l'Ingegneria dei Dati
Forse hai notato che il mondo ha abbandonato internet, mobile, social, cloud e persino la criptovaluta a favore di una vera ossessione per l’IA generativa.
Ma c’è di più nell’IA generativa oltre a una semplice dimostrazione su Twitter? E come influenzerà i dati?
Valutiamolo.
Come l’IA generativa disturberà i dati
Con l’avvento dell’IA generativa, i grandi modelli di linguaggio sono diventati molto più utili per la maggior parte delle persone.
- Le migliori aziende di sicurezza domestica da tenere d’occhio nel 2023
- Top aziende di sicurezza domestica da tenere d’occhio nel 2023
- L’IA dovrebbe imparare anche a dimenticare
Hai bisogno di un disegno di un dinosauro che cavalca una monociclo per la festa di compleanno del tuo bambino di tre anni? Fatto. E un bozza di una email da inviare ai dipendenti sulla nuova politica di lavoro da casa della tua azienda? Facile come una torta.
È inevitabile che l’IA generativa disturberà anche i dati. Dopo aver parlato con centinaia di leader aziendali dei dati, dalle società Fortune 500 alle startup, abbiamo formulato alcune previsioni:
L’accesso ai dati diventerà molto più facile e diffuso
Le interfacce simili a chat consentiranno agli utenti di fare domande sui dati in linguaggio naturale. Le persone che non sono esperte in SQL e business intelligence non dovranno più chiedere a un analista o a un ingegnere di analisi di creare un cruscotto per loro. Allo stesso tempo, coloro che sono esperti saranno in grado di rispondere alle proprie domande e creare prodotti dati più velocemente ed efficientemente.
Questo non sostituirà SQL e business intelligence (o i professionisti dei dati), ma abbasserà la soglia per l’accesso ai dati e lo aprirà a un numero maggiore di stakeholder in diversi casi d’uso. Di conseguenza, i dati diventeranno più diffusi e più utili per le organizzazioni, con l’opportunità di generare un impatto maggiore.
Allo stesso tempo, gli ingegneri dei dati diventeranno più produttivi
A lungo termine, i bot potrebbero mangiarci (scherzo – per lo più), ma nel futuro prevedibile l’IA generativa non sarà in grado di sostituire gli ingegneri dei dati; li renderà solo la vita più facile – e questo è fantastico. Dai un’occhiata a cosa fa GitHub Copilot se hai bisogno di ulteriori prove.
Mentre l’IA generativa allevierà i professionisti dei dati dal loro lavoro più ad hoc, darà anche alle persone dei dati strumenti assistiti dall’IA per costruire, mantenere e ottimizzare più facilmente i flussi di dati. I modelli di IA generativa sono già bravi a creare codice SQL/Python, a debuggarlo e a ottimizzarlo, e diventeranno sempre migliori.
Questi miglioramenti potrebbero essere integrati nelle attuali soluzioni del tuo stack dati o essere soluzioni completamente nuove sviluppate da una startup alle prime fasi di sviluppo. In ogni caso, il risultato saranno più flussi di dati e più prodotti dati da consumare da parte degli utenti finali.
Tuttavia, come ogni cambiamento, questi progressi non saranno privi di ostacoli. Maggiore accesso ai dati e maggiore produttività aumentano sia la criticità dei dati sia la loro complessità, rendendo i dati più difficili da governare e da fidarsi.
Non prevedo che i bot sotto forma di cruscotti Looker e report Tableau scateneranno il caos. Tuttavia, prevedo un mondo in cui i flussi di dati diventano mostri figurativi di Frankenstein e gli utenti aziendali si affidano ai dati senza avere una chiara comprensione da dove provengono i dati o una guida su come utilizzarli. La governance e l’affidabilità dei dati diventeranno molto più importanti in questo nuovo mondo.
Le squadre di ingegneria del software da tempo praticano il DevOps e automatizzano i loro strumenti per migliorare i flussi di lavoro degli sviluppatori, aumentare la produttività e costruire prodotti più utili – il tutto garantendo l’affidabilità di sistemi complessi.
Allo stesso modo, dovremo migliorare nel settore dei dati e diventare più disciplinati dal punto di vista operativo che mai. L’osservabilità dei dati giocherà un ruolo simile per le squadre dei dati nel gestire l’affidabilità dei dati – e dei prodotti dati – su larga scala e diventerà sempre più fondamentale e potente.
Costruire, ottimizzare e sfruttare LLM
Il mese scorso, Datadog ha annunciato che si sta integrando con ChatGPT per gestire meglio le prestazioni e l’affidabilità delle API di OpenAI monitorando i modelli di utilizzo, i costi e le prestazioni.
Monitorare l’API di OpenAI è un’operazione enorme, ma cosa succede quando le squadre dei dati iniziano a utilizzare LLM come parte dei loro flussi di elaborazione dei dati? Cosa succede quando le squadre utilizzano i propri set di dati per ottimizzare LLM o addirittura crearne di nuovi? Non è necessario dire che i flussi di dati interrotti e i dati non corretti avranno un impatto significativo sulla qualità e l’affidabilità del prodotto finale.
Durante la chiamata sugli utili del primo trimestre 2023 di Snowflake, Frank Slootman, CEO di Snowflake, ha sostenuto che “l’IA generativa è alimentata dai dati. È così che i modelli si addestrano e diventano progressivamente più interessanti e rilevanti… Non puoi semplicemente lasciare liberi indiscriminatamente questi [LLM] sui dati che le persone non comprendono in termini di qualità, definizione e provenienza”.
Abbiamo già visto le implicazioni di un addestramento del modello non affidabile prima dell’avvento dei LLM. Proprio l’anno scorso, Equifax, il gigante globale del credito, ha dichiarato che un modello di apprendimento automatico addestrato su dati errati ha causato l’invio di punteggi di credito errati a milioni di consumatori. E poco prima ancora, Unity Technologies ha riportato una perdita di ricavi di 110 milioni di dollari a causa di dati pubblicitari errati che alimentano i suoi algoritmi di targeting.
Secondo Slootman (e probabilmente anche gli esecutivi di Equifax e Unity), avere semplicemente l’IA non è sufficiente per avere successo – è necessario gestirne anche l’affidabilità. Non solo, ma le squadre hanno bisogno di un approccio automatizzato, scalabile, end-to-end e completo per gestire la rilevazione, la risoluzione e, in definitiva, la prevenzione dei modelli errati alimentati da dati errati.
L’osservabilità dei dati svolgerà un ruolo chiave nell’introduzione dei LLM nella produzione e nel renderli abbastanza affidabili per le aziende e le persone che li adottano in casi d’uso produttivi.
L’osservabilità dei dati fornisce alle squadre informazioni critiche sulla salute dei loro dati in ogni fase del processo, monitorando automaticamente i dati e avvisandovi quando i sistemi si guastano. L’osservabilità dei dati evidenzia anche un contesto ricco con la provenienza a livello di campo, i log, le correlazioni e altre informazioni che consentono una rapida risoluzione dei problemi, la risoluzione degli incidenti e una comunicazione efficace con le parti interessate colpite dai problemi di affidabilità dei dati, tutto ciò è fondamentale sia per l’analisi affidabile che per i prodotti di intelligenza artificiale.