IA vs Analisti dei Dati Le 6 Principali Limitazioni che Impattano il Futuro dell’Analisi

IA vs analisti dei dati le 6 principali limitazioni che influenzano il futuro dell'analisi

 

Che tipo di Analisi dei Dati può fare l’AI?

 

Sappiamo già che ChatGPT è lo strumento AI più versatile, con plugin che gli permettono di fare praticamente tutto. Può generare codice funzionante in Python, R e molti altri linguaggi, così come complesse query SQL. Come puoi immaginare, combinando queste funzionalità sarai in grado di utilizzare l’AI per praticamente ogni parte del tuo lavoro di Analisi dei Dati.

  

I casi d’uso includono:

  • Interrogazione
  • Pulizia e altre elaborazioni
  • Visualizzazione

Quando si tratta di lavorare con i dati, strumenti specializzati come Julius AI (per file csv) o BlazeSQL (per database SQL) sono progettati appositamente per questo scopo. A differenza di ChatGPT, questi strumenti non richiedono di caricare/connettere e spiegare i dati ogni volta che li si apre.

ChatGPT funziona per una rapida analisi su un file csv, ma molte aziende archiviano dati in database SQL all’interno di reti private. Tuttavia, gli strumenti specializzati possono connettersi a questi database SQL protetti e rispondere alle tue domande interrogando il tuo database e visualizzando i risultati.

 

Come potrebbe l’AI sostituire gli analisti dei dati?

 

L’Analisi dei Dati riguarda l’ottenimento di informazioni dai dati, gli analisti dei dati e gli scienziati dei dati sono i professionisti con le competenze tecniche per fornire le informazioni di cui hanno bisogno gli stakeholder. Ma le cose sono cambiate, e ora gli strumenti AI possono completare con successo alcune delle attività che in passato potevano essere svolte solo dagli analisti dei dati e dagli scienziati dei dati.

In teoria un stakeholder aziendale senza competenze tecniche potrebbe ora collegare i propri dati a uno strumento AI e fare una richiesta come “Ottieni il fatturato mensile raggruppato per prodotto, per i primi 3 prodotti dell’anno”. L’AI può quindi acquisire i dati e anche visualizzarli. L’utente dovrebbe solo impiegare pochi secondi per scrivere la richiesta. Se avesse chiesto a un collega umano, potrebbe non aver ottenuto una risposta per qualche giorno, o più tempo.

  

Vedere un’immagine come questa può essere sia sorprendente che preoccupante per gli analisti dei dati, ma sostituire gli analisti dei dati e gli scienziati dei dati non è così semplice. Eseguire semplicemente una query SQL e rappresentare graficamente il risultato è solo una parte del loro lavoro, e anche questo non può sempre essere fatto in modo affidabile dall’AI. Potrebbe aver funzionato nello screenshot sopra, ma cosa succede se il risultato è sbagliato anche se sembra corretto?

Sembra che sia il momento di parlare di alcune limitazioni dell’AI per lavorare con i dati.

 

Limitazione n.1: Allucinazioni dell’AI

 

La maggior parte delle persone che hanno lavorato con ChatGPT e strumenti simili ha sentito il termine “allucinazione” in questo contesto. Quando chiedi loro qualcosa di cui non sanno, a volte si inventano semplicemente qualcosa.

La ragione di queste allucinazioni è semplice: gli LLM sono simili a algoritmi di completamento automatico molto avanzati. Restituiscono il messaggio successivo più probabile in una conversazione, basandosi sui dati su cui sono stati addestrati. Grazie a set di dati di alta qualità e tecniche di addestramento avanzate, questo “completamento automatico” funziona così bene che questi strumenti possono soddisfare richieste complesse con risultati di alta qualità sorprendentemente elevati. Purtroppo, quando si trovano di fronte a situazioni per cui non sono stati preparati dai dati di addestramento, il messaggio successivo più probabile potrebbe non avere molto senso.

Cosa succede se genera del codice che viene eseguito, ma il codice restituisce dati errati? Lo stakeholder aziendale che usa l’AI Analista dei Dati potrebbe non avere idea che il risultato sia errato, ma non può vedere l’errore poiché non capisce il codice.

Limitazione n. 2: Informazioni aziendali.

Di solito, quando un nuovo analista dei dati inizia a lavorare in un’azienda, dovrà imparare cosa significano alcune delle colonne e dei valori. Questo perché il modello dei dati è stato progettato dall’azienda. Non è possibile analizzare i dati senza comprendere da dove provengono, perché la conoscenza comune non è sufficiente per capire la maggior parte dei database.

Gli strumenti di intelligenza artificiale come BlazeSQL consentono di includere queste informazioni per l’uso dell’IA, ma è necessario un analista dei dati o un data scientist per mantenerle aggiornate.

Limitazione n. 3: A volte, l’IA si blocca. AKA “Punti ciechi”

Potresti aver visto esempi di ChatGPT che si blocca su una domanda molto semplice. Queste domande sono spesso molto facili da rispondere, ma richiedono all’IA di ragionare in modo in cui non è molto brava.

Possiamo chiamare questi casi “punti ciechi”, e esistono anche per la scrittura del codice. Ad esempio, un punto cieco comune che l’IA ha nella generazione di query SQL è l’utilizzo di sottoselezioni. I modelli di IA spesso generano query che cercano di selezionare una colonna da una sottoselezione, anche se quella colonna non esiste nella sottoselezione.

WITH recent_orders AS (  SELECT    customer_id,    MAX(order_date) AS latest_order_date  FROM    orders  GROUP BY    customer_id)SELECT  customer_id,  product_id,  -- (Questa colonna non è definita nella sottoselezione)  latest_order_dateFROM  recent_orders

Anche quando l’errore viene evidenziato, spesso commettono lo stesso errore quando ci riprovano.

Limitazione n. 4: I modelli di IA concordano troppo

I modelli di IA tenderanno ad essere d’accordo con te, anche quando stai sbagliando. Questo può essere un grosso problema quando il modello di IA dovrebbe svolgere il ruolo di un esperto, poiché un esperto dovrebbe essere in grado di correggerti quando sbagli.

Limitazione n. 5: Lunghezza dell’input

Un essere umano potrebbe impiegare mesi per apprendere un progetto e il database, raccogliendo molte informazioni importanti. Un LLM, d’altra parte, ha di solito un “limite di token”, il che significa che può accettare solo un certo quantitativo di input.

Questa lunghezza dell’input (AKA “limite di token”) è spesso limitante quando si tratta di compiti complessi. Come potresti ridurre quei mesi di apprendimento in poche pagine e farle rientrare nel modello di IA?

La versione ampiamente disponibile di GPT-4 è limitata a 12 pagine di input + output. Tieni presente che un analista dei dati partecipa a ore di riunioni e legge documentazione o rapporti. Tutto l’output (codice e spiegazioni di GPT-4) deve essere sottratto dalle 12 pagine, poiché il limite comprende l’output, non solo l’input.

Ciò significa che un importante progetto di analisi dei dati che richiede molto apprendimento ed esplorazione non è semplicemente fattibile.

Limitazione n. 6: Soft skills

Ultimo ma non meno importante, ChatGPT e altri chatbot di IA sono… solo chatbot. L’interazione umana e le soft skills sono parte integrante del lavoro sui progetti di dati. Che si tratti di guadagnarsi la fiducia, gestire la politica dell’ufficio o interpretare la comunicazione non verbale. Questi elementi sono cruciali per collaborare con successo con gli stakeholder e completare un progetto.

Cosa succede dopo?

Come puoi vedere, l’IA ha diverse limitazioni che impediscono di essere un analista dei dati completamente qualificato. L’elenco sopra contiene solo alcune delle principali limitazioni, ma ci sono molte altre sfide quando si tratta di sostituire effettivamente un esperto di dati. In altre parole, non devi preoccuparti che l’IA ti sostituisca!

Detto questo, l’IA sta già avendo un impatto significativo sugli analisti dei dati e sugli scienziati dei dati. Potrebbe non essere perfetta, ma sta già fornendo un valore incredibile.

Lavorare più velocemente con l’IA

Scrivere codice, che sia Python, SQL o R, può richiedere tempo. Questi strumenti dell’IA potrebbero non essere accurati al 100%, ma funzionano ancora bene nella maggior parte dei casi. Spesso è 10 volte più veloce controllare rapidamente ciò che hanno generato anziché fare tutto da zero.

In casi in cui l’IA fatica o commette spesso errori, potrebbe essere più veloce farlo da zero. In altri casi, l’aumento massiccio della produttività vale lo sforzo occasionale di debugging. L’importante è sperimentare con diversi strumenti, conoscere i loro punti di forza e debolezza e integrarli nel tuo flusso di lavoro di conseguenza.

E per il futuro?

Le cose stanno progredendo estremamente velocemente, quindi alcune delle limitazioni attuali potrebbero non essere un problema per molto tempo. Questo è particolarmente vero ora che gli strumenti dell’IA sono utilizzati da così tante persone, imparando dagli utenti stessi. Queste interazioni vengono utilizzate per allenare i modelli e ci sono milioni di interazioni ogni giorno.

ChatGPT ha la base utenti in crescita più rapida di tutti i tempi e impara da quella base utenti.

Con concorrenti come Claude, Bard e altri che si uniscono alla corsa, vedremo presto miglioramenti massicci.

Essere preparati per questi cambiamenti è semplice, basta tenere d’occhio nuovi strumenti e sperimentare con loro. In questo modo conoscerai i loro punti di forza e debolezza e potrai assicurarti di sfruttare le ultime tecnologie e adattarti man mano che evolvono.

Su questo argomento, alcuni strumenti da tenere d’occhio includono:

BlazeSQL (per database SQL)

ChatGPT Advanced Data Analysis (per file csv e altri)

Pandas AI (aggiunge AI generativa alla libreria pandas)

[Justus Mulli](https://www.linkedin.com/in/justus-mulli-64551889) è un data scientist e fondatore, con esperienza in finanza, sanità ed e-commerce. Sfrutta la sua competenza in data science e AI per implementare soluzioni AI innovative in diverse industrie e professioni.