La storia di successo del Senior Data Scientist di Microsoft

Storia di successo del Senior Data Scientist di Microsoft

Introduzione

Nell’era digitale di oggi, il potere dei dati è innegabile e coloro che possiedono le competenze per sfruttarne il potenziale stanno guidando il cambiamento nel plasmare il futuro della tecnologia. Tra questi pionieri si distingue un individuo eccezionale, il signor Nirmal, un visionario nel campo della scienza dei dati, che è diventato una forza trainante presso una delle più importanti aziende tecnologiche del mondo, lavorando come Senior Data Scientist presso Microsoft.

Incontriamo il signor Nirmal, l’incarnazione della perseveranza, della brillantezza e della dedizione incrollabile. Dai modesti inizi, il signor Nirmal ha intrapreso un viaggio trasformativo che lo ha portato alla vetta della sua carriera come Senior Data Scientist presso Microsoft. La sua rapida ascesa rappresenta una storia di successo ispiratrice, non solo per gli aspiranti data scientist, ma per chiunque abbia un sogno e la determinazione di raggiungere la grandezza.

In questo articolo di successo, approfondiamo il percorso di Nirmal, tracciando le tappe fondamentali, le sfide e i trionfi che hanno plasmato la sua straordinaria carriera. Esploriamo i progetti innovativi che ha guidato, l’impatto trasformativo che ha generato e le preziose lezioni che ha imparato lungo il cammino. Attraverso la storia di Nirmal, scopriamo le caratteristiche e la mentalità necessarie per prosperare nel mondo in continua evoluzione della scienza dei dati.

Cominciamo la conversazione!

AV: Evidenzi le tappe della tua carriera, il tuo background educativo e come ti ha aiutato a ottenere il tuo primo lavoro di data scientist?

Signor Nirmal: La mia carriera non è mai stata un percorso lineare. Ognuno di noi ha la propria storia e sono sicuro che siano tutte interessanti. Ecco la mia: ho completato la laurea in Ingegneria IT in Nepal. Nel 2007 mi sono trasferito negli Stati Uniti per il mio Master. Dopo aver completato il mio Master, mi sono arruolato nell’esercito degli Stati Uniti. Sì, suona molto insolito. A causa della grande recessione negli Stati Uniti intorno al 2009 (che è stato anche l’anno della mia laurea), il mercato del lavoro era molto difficile, specialmente per gli studenti internazionali. C’era un programma pilota speciale gestito dall’esercito degli Stati Uniti e ho seguito tutte le procedure necessarie per diventare un membro del servizio militare. Crescendo, avevo una certa passione per unirmi all’esercito. Che modo per realizzarla.

Mentre ero nell’esercito, ho completato il mio MBA. Nel 2014, dopo aver completato il mio primo contratto di arruolamento, ho lasciato l’esercito degli Stati Uniti. Nello stesso anno, ho ottenuto il mio primo ruolo nel campo dei dati come Analista di Cyber Security, lavorando come dipendente del governo federale degli Stati Uniti per il Dipartimento della Marina. Ho completato il mio terzo Master in Data Science mentre lavoravo in questo lavoro. Dopo aver acquisito un po’ di esperienza come Data Analyst e aver costruito credenziali accademiche e competenze in Data Science, sono passato all’industria privata assumendo il mio primo ruolo come Data Scientist presso Wells Fargo Bank nel 2018. Da allora mi occupo di scienza dei dati e attualmente lavoro come Senior Data Scientist presso Microsoft.

AV: Puoi parlare di un progetto su cui hai lavorato in cui hai dovuto utilizzare i dati per risolvere un problema del mondo reale e l’impatto che ha avuto sulla strategia aziendale o del prodotto?

Signor Nirmal: Ci sono molti esempi. Innanzitutto, non è necessario avere il titolo di “Data Scientist” per lavorare e risolvere problemi legati ai dati. Ci sono alcune idee sbagliate in merito. Possiamo lavorare come Data Analyst, Data Engineer, Business Analyst o con qualsiasi altro titolo che coinvolga i dati.

Lavoro principalmente nel campo della sicurezza informatica. Due delle principali aree di interesse per noi sono l’indagine e la rilevazione. Quando si affrontano problemi di sicurezza informatica, uno dei problemi molto diffusi riguarda la rilevazione di anomalie. Ho lavorato in un team di data science per costruire sistemi di rilevamento delle anomalie, aiutando gli analisti di sicurezza a risparmiare tempo su quali eventi/allarmi concentrarsi. L’impatto si traduce nel risparmio di tempo e risorse per loro.

AV: Qual è stato il problema più sfidante che hai risolto utilizzando la data science? Come hai affrontato il problema? Qual è stato l’esito?

Mr. Nirmal: Direi che il problema più sfidante per me deve ancora essere risolto. Nel mondo dell’AI altamente innovativa in cui viviamo, dovremmo sempre essere consapevoli che gli avversari ora hanno gli strumenti più avanzati di sempre. Tuttavia, se dovessi menzionare un problema interessante, sceglierei l’analisi del comportamento dell’utente, nota anche come analisi del comportamento dell’entità dell’utente, ampiamente conosciuta come UEBA nell’industria. UEBA è un tipo di funzionalità di sicurezza informatica che scopre le minacce identificando attività dell’utente che deviano da una base normale.

Un semplice esempio: Abbiamo un utente che effettua spesso l’accesso dalla posizione A e all’improvviso vediamo attività di accesso dalla posizione B. Questo potrebbe essere normale in relazione ai viaggi, ma è comunque una deviazione dal comportamento normale e deve essere esaminato per confermare la normalità rispetto alla malizia. La parte più sfidante di UEBA è capire e creare la base di riferimento.

Insight basati sui dati

AV: Potresti condividere una storia su un momento in cui hai dovuto comunicare a stakeholder non tecnici insight complessi basati sui dati? Come hai fatto in modo che capissero gli insight e l’impatto che hanno avuto sul business?

Mr. Nirmal: Come data scientist, ci troveremo di fronte a molteplici scenari come questi. La maggior parte degli stakeholder aziendali è ben versata nel loro problema e nelle soluzioni intenzionate. Tuttavia, a volte è difficile spiegare loro perché alcune soluzioni hanno senso e perché altre no. Posso condividere un esempio. Abbiamo costruito un modello di rilevamento delle frodi, era un classificatore binario con transazioni fraudolente vs non fraudolente. Gli analisti delle frodi conoscono bene il loro settore. Ma per noi spiegare loro i risultati del modello è stato difficile, perché dovevamo renderlo comprensibile nel loro linguaggio.

Se condividiamo dettagli come l’ottimizzazione del modello e gli iperparametri, la convalida incrociata o i metodi di campionamento, queste cose avrebbero meno senso per loro. Tuttavia, se interpretiamo a livelli superiori quali attributi abbiamo trovato utili in base alla classifica delle caratteristiche, quali sono le sfide relative agli squilibri delle classi, queste cose avranno senso per loro. Pertanto, è sempre importante per un data scientist parlare anche il linguaggio aziendale.

AV: Come ti assicuri che i modelli di machine learning che il tuo team costruisce siano spiegabili e trasparenti per gli utenti finali, in particolare nel contesto della sicurezza e del rilevamento delle minacce?

Mr. Nirmal: Come ho accennato in un esempio precedente, l’interoperabilità del modello è molto importante quando si tratta di spiegarlo ai partner aziendali. Questo è importante indipendentemente dal settore in cui si lavora. Nella sicurezza e nel rilevamento delle minacce, diventa ancora più importante perché qualsiasi cosa costruiamo come modello deve essere spiegabile agli analisti delle minacce in modo che possano intraprendere azioni appropriate. Un buon esempio che posso condividere qui è il concetto di Benign Positive. Quando ho sentito per la prima volta questo termine, ero un po’ confuso, perché conoscevo solo i veri positivi e i falsi positivi. Ma nel dominio della sicurezza, i benigni positivi sono importanti. Ecco la distinzione tra queste categorie:

  • Vero positivo (TP): Un’azione maligna rilevata da uno strumento di sicurezza.
  • Benigno vero positivo (B-TP): Un’azione rilevata da uno strumento di sicurezza che è reale, ma non maligna, come un test di penetrazione o un’attività conosciuta generata da un’applicazione approvata.
  • Falso positivo (FP): Un falso allarme, che significa che l’attività non è avvenuta.

AV: Hai mai affrontato una situazione in cui i dati con cui stavi lavorando erano disordinati o incompleti? Come l’hai gestita, e qual è stato l’esito?

Mr. Nirmal: Questo succede tutto il tempo. Se un data scientist dice di aver ottenuto dati puliti con cui lavorare, allora sarebbe come vincere al lotto per lui/lei. I progetti del mondo reale non sono come le competizioni di Kaggle, dove i dati sono principalmente puliti come file csv. Dedichiamo più tempo alle esigenze dei dati, collaborando con i proprietari dei dati per il contratto dei dati, la raccolta dei dati. Queste sono cose che accadono prima ancora che l’analisi esplorativa dei dati (EDA) abbia luogo.

La maggior parte delle volte, ci troviamo di fronte a dati disordinati con alcune discrepanze con lo schema. La versione dei dati è importante, dove teniamo traccia di ogni versione dei dati quando iteriamo più volte per orchestrare la pipeline ETL fino a ottenere i dati corretti. C’è un concetto di osservabilità dei dati che significa esattamente la stessa cosa di quanto ho menzionato qui. Si occupa di ottenere i dati corretti alle destinazioni corrette, nei formati corretti, al momento corretto.

AV: Puoi raccontarci di un progetto in cui hai collaborato con un team per raggiungere un obiettivo comune? Come hai contribuito al successo del team? Cosa hai imparato dall’esperienza?

Sig. Nirmal: In Microsoft, seguiamo qualcosa chiamato ‘One Microsoft’, che si concentra nello sviluppo di servizi e prodotti che abbracciano la cultura della collaborazione tra i team per innovare concetti nuovi e lavorarci insieme, anziché lavorare in modo isolato. Quasi tutti i progetti a cui ho lavorato sono in collaborazione con altri team, che potrebbero essere colleghi ingegneri o team esterni. Una cosa positiva della cultura di Microsoft è che ci fanno concentrare sulla costruzione di sistemi sopra servizi esistenti, anziché reinventare la ruota. Questo promuove non solo la costruzione di relazioni con altri team, ma anche il risparmio di tempo e risorse per l’azienda. Personalmente ho imparato molte cose lavorando con diversi team.

Progetti di sicurezza dei dati

AV: Hai menzionato che ti piace lavorare all’incrocio tra sicurezza e data science. Potresti condividere una storia di successo su un progetto in cui hai utilizzato i dati per migliorare le misure di sicurezza o prevenire violazioni di sicurezza? Qual è stato l’impatto del progetto?

Sig. Nirmal: Questa è una grande domanda. Grazie per averla sollevata. Poiché i dati sono ovunque, la data science diventa applicabile a tutti i settori. Di solito suggerisco ai data scientist alle prime armi di provare percorsi multipli, almeno avere tre domini di interesse in modo da poter fare prove ed errori, proprio come addestrare modelli di machine learning, la selezione del percorso di carriera è un processo iterativo all’inizio della carriera. La sicurezza e la data science è una delle combinazioni rare e uniche. Il mercato del lavoro è in domanda e, nell’economia difficile, la sicurezza del lavoro è anche più forte in questo settore.

Per condividere la mia storia, una delle cose migliori per me nel campo della sicurezza è che si tratta di un campo in costante evoluzione. Gli hacker stanno ideando nuove strategie e strumenti, e noi dobbiamo rispondere a ciò in poco tempo. Uno dei progetti semplici eppure utili dal punto di vista aziendale, di cui ho fatto parte, è la Classificazione degli Allarmi. Mentre i ricercatori in sicurezza individuano vari modelli di attacco, aiutano gli ingegneri della sicurezza a scrivere regole di rilevamento, che a loro volta generano allarmi se c’è una corrispondenza o un colpo con le regole. Tuttavia, il problema è che ogni sistema genera migliaia di eventi che vengono convertiti in allarmi. Il tasso di falsi positivi su quegli allarmi è alto.

Per equilibrare sicurezza ed efficienza, abbiamo sviluppato un modello di machine learning per categorizzare gli allarmi in veri positivi, positivi benigni e falsi positivi, classificati per punteggi di rischio. Ciò consente agli analisti di dare priorità alle loro code e evitare volumi di allarmi schiaccianti, riducendo al minimo il rischio che gli avversari sfuggano indetti.

Consigli su come gestire intuizioni inaspettate

AV: Hai mai incontrato una situazione in cui i dati mostravano intuizioni inaspettate o sorprendenti? Qual è il tuo suggerimento su come affrontare questi scenari?

Sig. Nirmal: Una delle cose che tendiamo a trascurare durante la fase di analisi esplorativa dei dati (EDA) è che potremmo non fare le domande giuste ai dati. Se seguiamo solo il processo standard di fare statistiche descrittive, analisi uni- o multivariate, mappe di correlazione, ecc., che sono passaggi di base dell’EDA, c’è la possibilità che ci sfuggano importanti intuizioni.

Un esempio: Il processo più comune da seguire quando incontriamo outlier nei nostri dati è eliminarli, perché falsano la distribuzione. Tuttavia, eliminarli non è sempre una buona idea e dipende dal tuo progetto. Cosa succederebbe se stessimo facendo un progetto di rilevamento delle anomalie, quindi gli outlier potrebbero essere quelle anomalie che stiamo cercando di individuare. In questo caso, eliminare i dati di addestramento non è una decisione saggia. È sempre meglio consultare gli esperti del settore prima di eliminare qualsiasi tipo di dati, anche i dati mancanti.

Consigli per diventare un Data Scientist di successo

AV: Quali consigli daresti a qualcuno che vuole diventare un Data Scientist di successo in una grande azienda tecnologica come Microsoft?

Sig. Nirmal: I miei suggerimenti non si limitano solo a Microsoft ma si applicano in generale a tutte le industrie e aziende. Se devo riassumere in pochi punti:

  • Rimanere affamati di apprendimento: L’industria della scienza dei dati è sempre in movimento veloce. L’apprendimento continuo è molto importante in questo campo.
  • Costruisci la tua rete: Partecipa a conferenze, fai parte di gruppi di comunità su LinkedIn, contribuisci alla comunità scrivendo articoli su piattaforme popolari di scienza dei dati come VoAGI o verso la scienza dei dati. La rete di contatti aiuta molto.
  • Concentrati su progetti di impatto: Il titolo di Data Scientist può portarti a molte responsabilità: alcune svolgono lavoro di ingegneria dei dati, altre svolgono lavoro di analista dei dati. Indipendentemente da ciò, ti suggerisco di concentrarti su progetti ad alto impatto in cui puoi rendere le tue contribuzioni più visibili e misurabili in risultati tangibili.

Conclusioni

In conclusione, la storia di successo del Sig. Nirmal serve come un esempio luminoso delle incredibili vette che si possono raggiungere quando talento, opportunità e dedizione incrollabile si uniscono. Il Senior Data Scientist di Microsoft ha dimostrato che il potere dei dati, quando sfruttato con brillantezza e scopo, ha il potenziale per trasformare le industrie, plasmare il futuro e creare un’eredità che perdurerà per generazioni.

Infine, vorrei ringraziare Analytics Vidhya per avermi dato questa opportunità di condividere la mia esperienza. A tutto il mio pubblico, sentitevi liberi di connettervi con me su LinkedIn.