L’accesso ai dati è gravemente carente nella maggior parte delle aziende e il 71% crede che i dati sintetici possano aiutare

L'accesso ai dati è carente in molte aziende e il 71% ritiene che i dati sintetici siano utili

Articolo sponsorizzato

 

MOSTLY AI ha condotto la prima indagine mai realizzata sulla data sintetica nella comunità di data science AI/ML. Il nostro obiettivo era capire lo stato della data sintetica nel 2023. Cosa impedisce ancora alle aziende di adottare e scalare con successo l’AI/ML? Quanto è compresa la nozione di data sintetica generata da AI? Quali sono le esatte sfide di data con cui gli sviluppatori di AI/ML hanno bisogno di aiuto? Come funziona l’accesso ai dati nel 2023? Come può la data sintetica colmare le lacune nei dati e quanto presto gli ingegneri adotteranno questa tecnologia?

L’indagine è stata condotta nella prima metà del 2023 in collaborazione con VoAGI, la comunità di data science, machine learning, AI e analytics, e ha coinvolto oltre 300 partecipanti.

 

Accesso ai dati e stato della data sintetica nel 2023

   

TL;DR: In media, solo il 15% dei modelli di AI/ML è in produzione. Riguardo al motivo del fallimento dei progetti di AI/ML, il 35% ha citato la mancanza di competenze di AI/ML, mentre il 28% ha attribuito la colpa alla mancanza di accesso ai dati. Il 61% dei partecipanti ha notato che ci vogliono mesi per accedere a dati di qualità, e il 71% concorda sul fatto che la data sintetica è il pezzo mancante del puzzle necessario per il successo dei progetti di AI/ML.

Lo stato della data sintetica nel 2023 è fortemente influenzato dalla hype intorno all’AI generativa e dall’esplosione onnipresente delle tecnologie alimentate da AI, grazie agli ultimi progressi nel campo dell’LLM. Qui da MOSTLY AI, abbiamo visto un aumento delle richieste e delle domande in generale da quando ChatGPT è diventato popolare.

Le persone sono entusiaste di sfruttare l’AI nel loro lavoro quotidiano e cercano alternative strutturate ai dati tramite l’AI generativa. Mentre gli LLM sono una bestia completamente diversa, con modelli pre-addestrati e apprendimento supervisionato, i generatori di data sintetica alimentati da AI possono fornire accesso ai dati di sintesi rappresentativi che possono essere utilizzati al posto dei dati originali. La data sintetica offre un modo sicuro per la privacy di democratizzare l’accesso ai dati e migliorare i dataset per adattarli a scopi specifici. Il risultato è un tempo ridotto per accedere ai dati, un accesso più facile ai dati e l’automazione delle attività di data science.

I generatori di data sintetica stanno già aiutando le persone che lavorano con dati strutturati, dagli scienziati dei dati agli ingegneri di AI/ML. Ma quanto bene è compresa questa categoria e quanto siamo vicini all’adozione su larga scala?

Tobi Hann, CEO di MOSTLY AI, afferma:

Le piattaforme di data sintetica stanno cambiando il modo in cui lavoriamo con i dati e anche come sviluppiamo l’AI/ML centrata sui dati in tutti i settori. Vediamo i tassi di adozione più elevati oggi nelle aree in cui si gestisce una grande quantità di dati sensibili e fondamentali per il business, come il settore bancario, assicurativo e sanitario. Finora quest’anno abbiamo assistito a un ulteriore espansione dell’interesse nel campo della data sintetica, e sospetto che, almeno in parte, ciò sia dovuto all’attenzione che ChatGPT ha portato alla scena dell’AI generativa.”

 

Tuttavia, l’accesso ai dati rimane un problema per la maggior parte delle organizzazioni e le preoccupazioni sulla privacy sono più pressanti che mai. Nonostante l’urgenza di adottare e scalare l’AI sia tangibile in tutti i settori, le questioni legate alla privacy dei dati e la mancanza di consapevolezza sulle tecnologie che migliorano la privacy, come la data sintetica, impediscono alla maggior parte delle aziende di sfruttare il cambiamento verso il lavoro e i servizi supportati dall’AI.

 

Perché i progetti di AI/ML falliscono nel concretizzarsi

  Mentre sempre più persone adottano strumenti alimentati da AI nella loro infrastruttura tecnologica, la distribuzione su larga scala di modelli di AI/ML è ancora un privilegio limitato. Si nota un progresso, ma spostare l’AI/ML in produzione è ancora difficile. Tuttavia, le aziende sono più frenetiche che mai nel cercare di realizzare tutto questo. Mentre anni fa i progetti di sviluppo e scalabilità dell’AI o dell’ML sofisticato erano rari, ora tutti cercano di realizzare questi progetti con un senso di urgenza appena scoperto. Nonostante le ambizioni, i finali felici sono ancora difficili da ottenere.

Abbiamo chiesto ai partecipanti all’indagine quale fosse il motivo per cui i progetti di AI/ML non si concretizzano. Dei partecipanti, il 35% ha citato la mancanza di competenze di AI/ML, mentre il 28% ha attribuito la colpa alla mancanza di accesso ai dati. Risolvere questi problemi non è un compito facile, e crediamo fermamente che la data sintetica generata da AI possa aiutare su entrambi i fronti.

Accesso ai dati: Il più grande collo di bottiglia

I dati più sorprendenti raccolti durante il sondaggio sono stati i seguenti: solo il 18% dei partecipanti ha detto che l’accesso a dati di qualità non è un problema per loro. Per il 20%, ci vogliono settimane, mentre per il 61% delle persone intervistate, ci vogliono mesi per ottenere l’accesso ai dati. Non sorprende che i progetti incentrati sui dati non decollino.

È facile per OpenAI addestrare LLM su corpora disponibili pubblicamente (a condizione di risolvere le questioni di copyright, ovviamente), ma per il team medio dei dati, anche le risorse dati interne sono bloccate dalle politiche interne, distrutte dalla mascheratura dei dati e disponibili solo per casi d’uso specifici. Se le aziende vogliono stare al passo nella corsa all’IA, questo deve cambiare rapidamente. Anche il talento in AI/ML ha bisogno di accesso ai dati per poter crescere e sviluppare competenze e conoscenze di dominio.

I dataset di giocattoli ti portano solo fino a un certo punto, specialmente quando stai iniziando il tuo percorso di scienza dei dati e vuoi testare le tue ipotesi. Lo sviluppo del talento interno e la crescita dei data scientist cittadini non possono decollare senza sforzi significativi di democratizzazione dei dati, che è anche un problema di accesso ai dati.

Il pezzo mancante del puzzle dell’IA/ML

<p Il settantadue percento dei 332 partecipanti al sondaggio ha pianificato di utilizzare un generatore di dati sintetici alimentato dall'IA nei prossimi anni, e quasi il 40% ha pianificato di utilizzarne uno nei prossimi tre mesi, con la maggior parte delle persone che citano l'aumento dei dati come loro principale caso d'uso (46%). Anche se l'entusiasmo è alto, il sondaggio ha evidenziato anche una maggiore necessità di educare la comunità dei dati sui benefici, i limiti e i casi d'uso dei dati sintetici.

Le misconcezioni sono diffuse, anche tra gli esperti di IA/ML

C’è ancora molta confusione intorno al termine “dati sintetici”; il 59% dei partecipanti non conosceva la differenza tra dati sintetici basati su regole e dati sintetici generati dall’IA. Questo suggerisce che le aziende di dati sintetici hanno una grande responsabilità nell’educare i consumatori di dati e imparare in prima persona come sia lavorare con versioni sintetiche di dataset reali e come farlo bene. I generatori di dati sintetici gratuiti e robusti con interfacce utente facili da usare e opzioni di API, come la piattaforma di dati sintetici di MOSTLY AI, sono i più probabili ad avere successo nell’educare il pubblico.

“Dobbiamo educare le persone in modo massiccio. Dal momento che lavoriamo con dati sintetici giorno dopo giorno, diamo molte conoscenze correlate per scontate e solo quando le conversazioni arrivano a un livello più profondo ci rendiamo conto che a volte anche gli ingegneri hanno fraintendimenti fondamentali sul funzionamento della generazione di dati sintetici e sui casi d’uso che è in grado di risolvere. La nostra priorità numero uno è far sì che le persone sperimentino concretamente la tecnologia dei dati sintetici, in modo da imparare realmente le capacità nelle loro attività quotidiane e magari scoprire nuovi modi di lavorare con i dati sintetici che non avevamo pensato”, ha aggiunto Tobi Hann.

Potenziale dei dati sintetici

Quando si è chiesto quali fossero gli strumenti e le tecniche di anonimizzazione dei dati più utilizzati, il 49% dei partecipanti ha detto di utilizzare la mascheratura dei dati per anonimizzare i dati. Il 20% ha detto che semplicemente rimuove i dati PII dai dataset, un approccio non solo insicuro dal punto di vista della privacy ma che può anche distruggere l’utilità dei dati necessari per addestrare i dati di alta qualità. Le tecnologie di miglioramento della privacy, come l’encryption omomorfica, i dati sintetici generati dall’IA e altre, rappresentano il 31%.

<p C'è sicuramente spazio per crescere e cambiare abitudini in materia di anonimizzazione dei dati e preparazione dei dati per il meglio. Il team di MOSTLY AI continuerà a monitorare le tendenze dei dati sintetici e ripeterà il sondaggio l'anno prossimo. Se vuoi rimanere aggiornato sulle ultime novità sui dati sintetici, che si tratti degli ultimi risultati della ricerca, delle normative o degli aspetti commerciali, iscriviti alla Newsletter mensile sui dati sintetici!

Se sei pronto per accelerare l’accesso ai dati nella tua azienda o desideri provare le nostre funzionalità di data augmentation all’avanguardia, registrati per un account gratuito a tempo indeterminato per sperimentare con la piattaforma di dati sintetici facile da usare e sicura di MOSTLY AI. Il nostro team è disponibile direttamente dall’app per supportarti e aiutarti a sfruttare al massimo la generazione di dati sintetici.