Trascina, Rilascia, Analizza La crescita della scienza dei dati senza codice

Trascina, Rilascia, Analizza La Crescita della Scienza dei Dati Senza Codice

 

Una delle sfide che i professionisti dei dati affrontano è quella di dover codificare tutto da zero per ogni nuovo caso d’uso. Questo può essere un processo lento ed inefficiente. Le soluzioni senza codice o a basso codice aiutano gli scienziati dei dati a creare soluzioni riutilizzabili che possono essere applicate a una vasta gamma di casi d’uso. Ciò può risparmiare tempo e sforzo e migliorare la qualità dei progetti di scienza dei dati.

Puoi fare praticamente tutto nella scienza dei dati senza scrivere una singola riga di codice. “Le soluzioni senza codice o a basso codice sono il futuro della scienza dei dati”, ha commentato Ingo Mierswa, SVP di sviluppo prodotto presso Altair e fondatore di RapidMiner, una piattaforma di scienza dei dati. Come inventore consolidato nel campo della scienza dei dati senza codice, la sua esperienza e i suoi contributi hanno influenzato l’adozione e l’implementazione di queste funzionalità nell’industria. “Queste funzionalità”, ha osservato Mierswa durante la nostra intervista, “rendono possibile per le persone senza molta esperienza di programmazione costruire e distribuire modelli di scienza dei dati. Ciò può contribuire a democratizzare la scienza dei dati e renderla accessibile a tutti.”

“Non esisteva una piattaforma senza codice o a basso codice quando mi sono trovato ad essere un informatico che ha ricreato soluzioni molto simili per ogni nuovo caso d’uso. Era un processo inefficiente, che sembrava un enorme spreco di tempo”, condivide Miesrwa. Scherzando con le basi, ha affermato: “Se risolvi un problema per la seconda volta e continui a codificare, significa che non l’hai risolto correttamente la prima volta. Avresti dovuto creare una soluzione riutilizzabile per risolvere gli stessi o simili problemi più e più volte.” Le persone, afferma, “spesso non si rendono conto di quanto siano simili i loro problemi e, di conseguenza, finiscono per codificare sempre la stessa cosa. La domanda che dovrebbero porsi è: ‘Perché sto ancora codificando?’ Forse non dovrebbero farlo per risparmiare tempo e sforzo.”

 

Accelerazione Diversificata

 

Le soluzioni senza codice o a basso codice per la scienza dei dati possono essere molto gratificanti. “Il primo e più importante beneficio è che possono portare a forme migliori di collaborazione”, sottolinea Miesrwa. “Tutti possono capire i flussi di lavoro o i modelli visivi se vengono spiegati, tuttavia, non tutti sono informatici o programmatori, e non tutti possono capire il codice.” Quindi, per collaborare efficacemente, è necessario capire quali risorse il team sta producendo collettivamente. “La scienza dei dati è, alla fine della giornata, uno sport di squadra. Hai bisogno di persone che capiscano i problemi aziendali, che siano in grado di codificare o meno, poiché la codifica potrebbe non essere il loro lavoro quotidiano.”

Poi ci sono altre persone che hanno accesso ai dati, che sono immersi nel pensiero computazionale, che pensano: “Ok, se voglio costruire, ad esempio, un modello di machine learning, devo trasformare i miei dati in un modo specifico.” Questa è una grande abilità e anche loro hanno bisogno di collaborare, ma ancora una volta, per abilità del genere, sappiamo che i prodotti ETL sono esistenti da molto tempo. “Sì, in casi rari, in situazioni speciali e molto personalizzate, è ancora necessario codificare. Anche in quei casi, si tratta dell’uno percento di eccezione”, ha sottolineato Miesrwa. “Non dovrebbe essere la norma, ma la vera magia accade quando si mettono insieme tutte le diverse competenze, dati, persone ed esperienze.”

“Non vedrai mai tutto questo con un approccio basato esclusivamente sul codice. Non otterrai mai l’impegno da parte degli stakeholder. Ciò spesso porta a quello che io chiamo progetti morti. Dovremmo considerare la scienza dei dati come una soluzione per i problemi. Non dovremmo trattarla come un approccio scientifico, in cui non importa se effettivamente creiamo una soluzione o no.” Ragionando, Miesrwa ha sostenuto: “Importa. Stiamo risolvendo problemi aziendali multimilionari. Dovremmo effettivamente lavorare verso una soluzione funzionante, ottenere l’adesione, distribuirla e migliorare davvero la nostra situazione qui. Non diciamo, ‘Sì, lo so, e se fallisce, non mi importa.’ Quindi la collaborazione è un grande vantaggio”, ha affermato.

L’accelerazione è un altro vantaggio, spiega Miesrwa. Quando si eseguono compiti ripetitivi codificando, non si lavora nel modo più veloce possibile. Se creo, ad esempio, un flusso di lavoro RapidMiner composto da cinque o dieci operatori, spesso equivale a migliaia di righe di codice. Copiare e incollare codice può rallentarti, ma le piattaforme a basso codice possono aiutarti a creare soluzioni personalizzate più velocemente.

La responsabilità, spesso facilmente trascurata, è il beneficio più importante. Quando crei una soluzione basata su codice, può essere difficile tracciare chi ha apportato modifiche e perché. “Questo può causare problemi quando qualcun altro deve prendere in carico il progetto o quando c’è un bug nel codice. D’altra parte, le piattaforme a basso codice si auto-documentano. Ciò significa che i flussi di lavoro visivi che crei sono accompagnati da una documentazione che spiega cosa fa il flusso di lavoro. “Questo rende più facile comprendere e mantenere il codice, e contribuisce anche ad assicurare la responsabilità”, ha detto Miesrwa. “Le persone lo capiscono. Ci credono, ma possono anche prendere in carico questi risultati. Collettivamente, come squadra.”

Ecosistema Aperto

L’ondata di progressi nell’IA sta trasformando il panorama delle scienze dei dati, e le aziende che vogliono rimanere avanti devono essere aperte, utilizzare software open source e standard aperti, e non nascondere nulla che sia fondamentale nel mercato delle scienze dei dati.

Le aziende che sono rimaste aperte hanno avuto una posizione vincente perché il mercato si muove velocemente e richiede un’iterazione costante. “Questo è vero per il mercato complessivo delle scienze dei dati negli ultimi 10-20 anni”, riflette Miesrwa, “la natura frenetica del mercato richiede un’iterazione costante, rendendo estremamente imprudente chiudere l’ecosistema. Questo è parte del motivo per cui alcune aziende che tradizionalmente erano chiuse si sono aperte e hanno adottato un approccio neutralizzato dai fornitori per supportare più linguaggi di programmazione e integrazioni.”

Anche se l’approccio opzionale al codice consente ai ricercatori di svolgere compiti complessi di analisi dei dati senza scrivere una sola riga di codice, ci sono situazioni in cui la codifica può essere necessaria. In tali casi, la maggior parte delle piattaforme a basso codice si integra con linguaggi di programmazione, librerie di apprendimento automatico e ambienti di apprendimento profondo. Offrono anche agli utenti la possibilità di esplorare il mercato delle soluzioni di terze parti, specifica Miesrwa. “RapidMiner offre persino un framework operativo che consente agli utenti di creare i propri flussi di lavoro visivi. Questo framework operativo rende facile estendere e riutilizzare i flussi di lavoro, fornendo un approccio flessibile e personalizzabile all’analisi dei dati.”

La Strada Avanti

Altair, leader nelle scienze computazionali e nell’IA, ha condotto una ricerca che ha rivelato un’ampia adozione di strategie di dati e IA nelle organizzazioni di tutto il mondo.

La ricerca, che ha coinvolto oltre 2000 professionisti provenienti da diverse industrie e 10 paesi diversi, ha rivelato un tasso di fallimento significativo (variabile dal 36% al 56%) per i progetti di IA e analisi dei dati quando c’è attrito tra diversi dipartimenti all’interno di un’organizzazione.

Lo studio ha identificato tre principali fonti di attrito che ostacolano il successo dei progetti di dati e IA: attrito organizzativo, tecnologico e finanziario.

  • L’attrito organizzativo si verifica a causa delle sfide nel trovare individui qualificati per ricoprire ruoli di scienza dei dati e di mancanza di conoscenza di IA tra la forza lavoro.
  • L’attrito tecnologico deriva da limitazioni nella velocità di elaborazione dei dati e problemi di qualità dei dati.
  • L’attrito finanziario è causato da limitazioni di finanziamento, da un focus sui costi iniziali da parte della dirigenza e dalla percezione di alti costi di implementazione.

James R. Scapa, fondatore e CEO di Altair, nel comunicato stampa ha sottolineato l’importanza delle organizzazioni che sfruttano i loro dati come asset strategico per ottenere un vantaggio competitivo.

L’attrito paralizza i progetti critici per la missione. Per superare queste sfide e raggiungere quello che Altair definisce ‘Frictionless AI’, le aziende devono adottare strumenti di analisi dei dati self-service. Questi strumenti,” sottolinea Scapa, “permettono agli utenti non tecnici di navigare facilmente e a basso costo in sistemi tecnologici complessi, eliminando l’attrito che ostacola il progresso.”

Ha anche riconosciuto che esistono ostacoli sotto forma di persone, tecnologia e investimenti, che impediscono alle organizzazioni di sfruttare efficacemente le intuizioni basate sui dati. E attraverso la chiusura delle lacune di competenze, le organizzazioni possono contribuire a costruire una conoscenza solida tra team interfunzionali per superare l’attrito.

[Saqib Jan](https://www.linkedin.com/in/s-jan/) è uno scrittore e analista tecnologico con una passione per la scienza dei dati, l’automazione e il cloud computing.