5 Modi in cui l’IA generativa cambia l’approccio delle aziende ai dati (e in cui non lo fa)

5 Modi in cui l'IA generativa cambia l'approccio aziendale ai dati

Gli esperti del venture capital, Snowflake e altri discutono di come l’IA generativa beneficerà i team di dati e delle sfide che devono affrontare.

Immagine cortesia dell'autore. Generata da DiffusionBee.

L’IA generativa non è un concetto nuovo. È stata studiata per decenni e applicata in capacità limitate. Fino a quando ChatGPT ha sconvolto e stupito la nostra coscienza collettiva alla fine del 2022.

Tuttavia, generare una ricetta per la lasagna è un processo completamente diverso rispetto all’integrazione delle capacità di IA generativa in un’azienda o all’integrazione di modelli linguistici di grandi dimensioni (LLM) nei flussi di lavoro di ingegneria dei dati.

Il cambiamento sta arrivando, ma quali saranno gli impatti sull’approccio delle organizzazioni ai dati e quali ostacoli devono ancora essere superati? Per rispondere a questa domanda, abbiamo convocato:

  • Kristen Werner, Direttore di Data Science e Engineering, Snowflake
  • Tomasz Tunguz, Socio Generale, Theory Ventures
  • Lior Gavish, co-fondatore CTO, Monte Carlo

Le loro esperienze includono la creazione di nuove tecnologie, il finanziamento di numerose startup di IA generativa e l’aiuto a migliaia di clienti per sfruttare l’IA per ottenere maggior valore dai loro dati.

Sebbene le loro stime varino dal 50 al 20% nello “spettro di quanto hype c’è nell’IA generativa”, ogni membro del panel concorda sul fatto che questa tecnologia trasformativa abbia applicazioni pratiche oggi e un enorme potenziale. Quindi diamo uno sguardo ad alcuni dei temi ricorrenti.

In Questo Articolo:

5 benefici dell’IA generativa

  • #1- Aumento dell’accessibilità ai dati
  • #2- Estrarre informazioni dai dati e analisi dei grafici
  • #3- Mettere al lavoro i dati non strutturati
  • #4- Accelerare lo sviluppo della pipeline dei dati
  • #5- Riduzione dei costi (e forse generazione di ricavi)

5 sfide dell’IA generativa

  • #1- Allucinazioni, affidabilità e fiducia
  • #2- Risolvere i propri problemi
  • #3- Sicurezza e privacy
  • #4- Siamo ancora all’inizio per quanto riguarda l’infrastruttura e le soluzioni
  • #5- Cambiamenti nelle competenze

5 benefici dell’IA generativa

Per quanto riguarda l’IA generativa, è difficile separare la realtà dalla finzione e l’applicazione pratica dalla pubblicità ingannevole. Ecco alcuni modi attuali e probabili in cui l’IA generativa contribuisce al valore per le organizzazioni e i team di dati, sia oggi che in un prossimo futuro.

#1- Aumento dell’accessibilità ai dati

Il frutto più abbondante per l’IA generativa nel mondo dei dati? La possibilità per gli utenti non tecnici di inserire comandi in linguaggio naturale che possono generare query SQL per recuperare dati specifici.

“Il passaggio da testo a SQL è onnipresente”, ha detto Tomasz. “OpenAI lo sta sviluppando. Lo hai nel livello di Business Intelligence, lo hai negli strumenti di esplorazione dei dati. Penso che sia molto abbordabile [come obiettivo].”

L’automazione delle query SQL può democratizzare radicalmente l’accesso ai dati per gli utenti non tecnici e accelerare il tempo di valore.

“Penso che l’IA apra la possibilità a persone che non sono competenti nei dati… di poter effettivamente accedere a dati significativi, a intuizioni significative”, ha detto Lior. “E anche per le persone che conoscono SQL, accelererà questo processo. Quindi avremo dati nelle mani di più persone.”

Le piattaforme di dati come Snowflake stanno investendo in come l’IA generativa possa non solo generare SQL, ma ripensare l’esperienza utente-dati. Kristen ha parlato di come una delle funzionalità più sperimentali del data cloud, attualmente in fase di sviluppo, miri a collegare LLM, query SQL e visualizzazione dei dati.

“La catena del valore può richiedere molto tempo per generare i dati corretti e quindi ottenere un’esperienza utente finale soddisfacente. È una notifica push? È un cruscotto? È un report di BI?”, ha detto. “Sono davvero entusiasta della capacità dell’IA di semplificare alcuni di questi passaggi e consentire agli utenti finali di raggiungere più facilmente lo stack con un’esperienza finale [migliore]… Non è ancora realtà, ma penso che diventerà realtà.”

#2- Estrarre informazioni dai dati e analisi dei grafici

La creazione e l'analisi dei grafici potrebbero presto essere effettuate da Gen AI. Foto di Chris Liverani su Unsplash

L’AI generativa può avere un impatto oltre la semplice interrogazione e visualizzazione dei dati, andando oltre ed estraendo informazioni da essi. Infatti, questo è un processo già utilizzato da Tomasz.

“ChartGPT è un prodotto specializzato che si concentra solo sulla creazione di grafici dei dati. E se qualcuno ha giocato con [ChatGPT] Code Interpreter, è davvero sorprendente”, ha detto. “Puoi prendere un foglio di calcolo Excel di un’azienda quotata in borsa, caricarlo in Code Interpreter e chiedergli di riassumere lo stato di ‘Google dopo i guadagni’ e produrrà informazioni molto significative”.

#3- Utilizzare dati non strutturati

Tutti i nostri esperti sono entusiasti del potenziale dell’AI generativa nel consentire ai team e alle organizzazioni di estrarre valore da fonti non relazionali.

“Ci sono molti dati non strutturati nel mondo. Testi e immagini che richiedono competenze e strumenti specializzati per analizzarli che [sono limitati dalle risorse]”, ha detto Lior. “Puoi immaginare che Gen AI estragga struttura da quei set di dati testuali e di immagini e li metta a lavorare allo stesso modo in cui siamo riusciti a sfruttare i dati relazionali”.

Tomasz ha definito questo processo “information fracking”.

“Alla Theory [la sua società di venture capitalist], abbiamo circa 10.000 documenti che abbiamo raccolto sulle startup… E circa due settimane fa abbiamo prodotto il nostro primo riassunto della nota di investimento su uno spazio chiamato generative RPA. Ed è stato prodotto solo sfruttando queste informazioni con molti file di testo”, ha detto.

Snowflake e altre piattaforme di dati stanno rilasciando funzionalità che accelereranno la capacità dei team di dati di rendere tutto ciò una realtà.

“Document AI è un progetto in crescita come risultato della nostra acquisizione di Applica e quel caso d’uso riguarda principalmente la lettura e l’interpretazione dei documenti”, ha detto. “Potrebbe essere per l’Hr, per i contratti di approvvigionamento e così via… I clienti che incontro hanno una serie di [dati] e vogliono ottenere valore da essi”.

Document AI è stato presentato all'ultima Snowflake Summit, come mostrato nella foto sopra. Foto scattata dall'autore.

#4- Accelerare lo sviluppo delle pipeline di dati

L’AI generativa potrebbe o meno rivoluzionare l’architettura delle pipeline di dati, ma sicuramente permetterà agli ingegneri dei dati di costruirle e implementarle più rapidamente.

“Gen AI è già molto brava a scrivere SQL, Python, Scala o qualunque altra cosa tu stia scrivendo per le tue pipeline. E quindi vedremo GenAI rendere gli ingegneri più efficaci e più veloci nella costruzione di queste soluzioni”, ha detto Lior. “Non sono sicuro che sia 10 volte più efficace… ma sicuramente è il 20% o il 30% più efficace e questo è significativo per molti team”.

Tuttavia, Lior ha sottolineato che è improbabile che la modellazione dei dati e la comprensione di come si adattano insieme le fonti di dati siano attività svolte dall’IA, affermando: “Penso che questo verrà ancora fatto dagli esseri umani nel futuro prevedibile”.

#5- Riduzione dei costi (e forse generazione di ricavi)

È un ambiente di riduzione dei costi e molte organizzazioni stanno dando priorità a come l’AI generativa può aiutare in queste iniziative.

“Ci sono due modi per migliorare la redditività. Uno riguarda il lato dei ricavi, che è molto più esterno e dove si incontreranno molti problemi”, ha detto Kristen. “L’altro [modo per migliorare la redditività] è ridurre i costi internamente… Molte persone si stanno chiedendo come possiamo ridurre i costi interni utilizzando l’AI? Poi sperabilmente [ci sono] molte lezioni apprese che possono aiutare a costruire il percorso verso casi d’uso più esterni e generazione di ricavi”.

5 sfide dell’IA generativa

Ora che siamo tutti ebbri dalle possibilità dell’IA, è ora di riprendere lucidità con alcune sfide e vincoli molto reali. Questi includono:

#1- Allucinazioni, affidabilità e fiducia

Ora è abbastanza chiaro che i grandi modelli linguistici producono allucinazioni, o in altre parole, producono con sicurezza risultati errati. Questo può essere difficile poiché spesso confondiamo argomentazioni ben ragionate con argomentazioni corrette.

“Abbiamo visto alcune delle sfide, che si tratti di allucinazioni o delle sfide legate al rendere GenAI funzionante in domini molto specifici che non sono a uso generale… Penso che tutte queste cose siano ancora sfide significative,” ha detto Tomasz.

Non si tratta solo di allucinazioni, però. Come i dashboard analitici e le applicazioni di apprendimento automatico, i modelli di IA generativa saranno affidabili e dignitosi solo quanto i dati sottostanti a cui accede o su cui viene addestrato. Questi non sono problemi nuovi, ma saranno più diffusi e richiederanno soluzioni più scalabili.

“Scegliere quale insieme di dati utilizzare, come convalidarlo, come pulirlo e come metterlo insieme per rispondere alle domande aziendali [quando hai] meno analisti nel processo andrà a esacerbare alcuni dei problemi di governance esistenti oggi,” ha detto Lior. “Come identifichi quali insiemi di dati sono affidabili, quali sono utili e come hai i metadati e la documentazione giusta per rendere i dati utili per un modello?”

Lo stack di dati sottostante fungerà anche da guida chiave per l’IA generativa per comprendere i dati sottostanti.

“Se chiedi al modello come interpretare la tua attività in base a ciò che sa sul resto del mondo, beh, il resto del mondo non sa come interpretare la tua attività,” ha detto Kristen. “Dove inietti una logica aziendale nel tuo stack di dati che serva ogni livello successivo? Credo che avere alcune regole chiave curate sulla tua attività, sia che si tratti di entità correlate o di relazioni integrate, al livello base del tuo stack di dati servirà sia la velocità che l’accuratezza del modello.”

#2- Risolvere i propri problemi

Tomasz ha condiviso un’esperienza rilevante sulle sfide dell’utilizzo dell’IA generativa per compiti più estesi:

“Stavo preparando una presentazione e volevo tracciare la crescita delle stelle di un determinato repository GitHub. E quindi c’erano due o tre pezzi di codice che dovevo creare. Quindi ho chiesto al robot di produrre un crawler per ottenere le informazioni. E poi un’altra parte era di effettivamente rappresentarlo graficamente, e poi volevo automatizzarlo in modo da potergli dare una lista di repository da esaminare,” ha detto. “Ha avuto molte difficoltà a prendere un grande pezzo di un problema del genere e scomporlo in singoli compiti e poi costruirlo.”

Ha anche espresso frustrazione per la tendenza dei modelli Gen AI a trovarsi incalzati una volta che hanno commesso un errore.

“[Quando] prende una strada sbagliata in cui il codice non viene eseguito, ha molte difficoltà a dimenticare l’errore che ha commesso e vuole continuare a migliorare e devi riavviare la sessione. Ha una memoria molto, molto persistente,” ha detto.

#3- Sicurezza e privacy

Questo è probabilmente l’ostacolo più grande all’adozione diffusa di Gen AI secondo Tomasz.

“Molte [banche e aziende della Fortune 2000] l’hanno bloccato del tutto. Penso che molte di loro stiano aspettando che i prodotti di intelligenza artificiale vengano distribuiti all’interno di un Azure VPC in modo da poterlo controllare,” ha detto. “Nel cloud, siamo passati a una multiutenza in cui più clienti sono sulla stessa macchina… Con LLM, i clienti accetteranno questo o abbiamo effettivamente bisogno di un LLM su base cliente?”

Il settore è nelle prime fasi di navigazione di queste domande, ma finora ci sono state quattro principali modalità di risoluzione di queste sfide di sicurezza e privacy:

  • Vieterlo
  • Dire periodicamente all’LLM di “dimenticare tutti i miei dati e non usarli per l’addestramento”
  • Utilizzare uno strato intermedio per intercettare le informazioni personali identificabili
  • Accettare il rischio

La soluzione è spesso dettata dal caso d’uso. Generare un sito web con un modello ha molto meno rischio rispetto al servizio clienti in cui possono essere elaborati informazioni dei clienti e carte di credito.

E ovviamente, non sarebbe stata una discussione sull’IA generativa se non fosse emerso il tema dell’iniezione di prompt e un pertinente xkcd sull’iniezione di SQL.

#4- Siamo ancora agli inizi dell’infrastruttura e delle soluzioni

Navigare tra governance, affidabilità, sicurezza e altre sfide generative dell’AI richiederà un’infrastruttura solida che al momento non esiste completamente.

“Siamo ancora agli inizi per quanto riguarda l’infrastruttura e le soluzioni. Quando parliamo di Gen AI in questo momento, per la maggior parte delle persone significa utilizzare le API di OpenAI. Solo pochi selezionati potrebbero stare sperimentando alcuni modelli open source e database vettoriali, ma penso che gli strumenti ad esso associati siano ancora agli inizi”, ha detto Lior.

La classificazione e il controllo degli accessi sono altre due sfide in cui un’infrastruttura di supporto può essere d’aiuto.

“La classificazione dei dati è un problema difficile. Quando si parla di controlli degli accessi e controlli degli accessi su larga scala… bisogna già avere una comprensione della classificazione”, ha detto Kristen. “Abbiamo dedicato molto tempo in questo settore e abbiamo alcune funzionalità native in Snowflake.”

Gli identificativi personali non sono così difficili da individuare, ma penso che ci sia un focus sull’abilitare le persone a creare classificatori personalizzati. Poiché l’universo è illimitato e se si pensa a cosa costituisce segreti commerciali o dati dei clienti, questo può essere dinamico all’interno di un’azienda.”

#5- Cambiamenti negli skill set

La parte più lunga della discussione si è incentrata sulla domanda di risorse emergenti per l’AI generativa, nonché sui cambiamenti della forza lavoro che si verificheranno a seguito dell’implementazione di questi grandi modelli di linguaggio in tutta l’azienda.

I grandi vincitori? I team dei dati che vedranno una domanda esponenziale per i loro servizi, in particolare per valutare e ottimizzare diversi modelli di AI generativa.

“Credo che parte delle responsabilità passerà al team dei dati perché dovranno garantire che gli output siano accurati e che le soluzioni utilizzate siano conformi alle normative applicate a quel business”, ha detto Tomasz. “E saranno loro i responsabili della valutazione iniziale fino alla manutenzione continua. Quindi penso che i team dei dati cresceranno cresceranno”.

Lior ha sottolineato che i progressi tecnologici passati indicano che probabilmente non ci saranno meno persone che lavorano con i dati, ma che genereremo più valore dai dati.

“Lo abbiamo visto più e più volte con il software in passato. Siamo passati dall’Assembly a Python, che è molto più produttivo. Ma significa che abbiamo avuto meno ingegneri del software? No, ne abbiamo avuti di più e abbiamo avuto più software nel mondo e penso che sarà così anche in futuro”, ha detto.

Una delle sfide di questa crescente domanda sarà colmare il divario di competenze come ha evidenziato Kristen.

“Il momentum che ho visto è che nell’era precedente a OpenAI si cercava di colmare il divario di competenze abilitando più persone a utilizzare SQL. La gestione di tutta l’infrastruttura, dei modelli e di tutto ciò di cui abbiamo parlato con i LLM, mi sembra che sia più profondo nella struttura…non si tratta di avere più analisti SQL ma di una persona diversa”.

Un momento emozionante per i team dei dati

Come è stato chiaro dal nostro panel di esperti, l’AI generativa avrà un grande impatto su come le organizzazioni pensano ed estraggono valore dai loro dati…potrebbe solo richiedere un po’ più di tempo rispetto a quanto i post su Twitter X vorrebbero far credere.

È un momento emozionante per essere nel settore dei dati e avere l’opportunità di risolvere alcune di queste sfide importanti.

Grazie per aver letto! Seguimi su VoAGI per altre storie su ingegneria dei dati, qualità dei dati e argomenti correlati. Iscriviti per ricevere le mie storie nella tua casella di posta.