Domande di intervista sulla probabilità nella vita reale degli analisti dei dati

Interviste sulla concreta possibilità di carriera degli analisti dei dati nella vita reale

Collegare le domande di intervista sulla probabilità alle attività quotidiane degli analisti di dati

Foto di Thomas su Unsplash

Se ti candidi per il ruolo di analista di dati e scienziato dei dati, durante i colloqui ti imbatterai spesso in domande sulla probabilità. Ma ecco la cosa: alcune persone sono sicure che queste domande non abbiano molto a che fare con il vero lavoro. Domande come, “Perché dovremmo preoccuparci di calcolare la probabilità di ottenere un 6 cinque volte con un dado?” vengono spesso poste. In questo articolo, condividerò alcuni esempi concreti per spiegare perché capire la probabilità è più importante di quanto si possa pensare. Per fare ciò, prendiamo alcuni compiti di intervista e vediamo le loro applicazioni nel mondo reale.

D1. Lanciate una moneta 10 volte di seguito, qual è la probabilità che esca testa ogni volta?

Immagina di essere un analista di dati in un servizio di consegna di cibo. Dopo ogni ordine, i clienti possono valutare la qualità del cibo. L’obiettivo principale del team è offrire un servizio di alta qualità e, se un ristorante riceve recensioni negative, è necessario verificarlo. Quindi, ecco la grande domanda: quante recensioni negative dovrebbero scatenare una verifica del ristorante?

A volte, un ristorante può ricevere qualche feedback non eccezionale solo occasionalmente, e non è colpa loro. Se un ristorante ha gestito 1000 ordini, potrebbe ricevere un paio di recensioni negative per caso.

Pensa a cosa segue: circa il 5% degli ordini finisce con recensioni negative solo per caso. Quindi il numero di recensioni negative per ristorante segue una distribuzione binomiale Bin(n, p), con “n” che rappresenta gli ordini e “p” la probabilità di una recensione negativa (che è del 5% nel nostro caso).

Quindi, se un ristorante ha 100 ordini, c’è circa il 23,4% di probabilità che ricevano almeno 7 recensioni negative e una probabilità molto più piccola del 2,8% che ricevano almeno 10 recensioni. Puoi verificare questo utilizzando una calcolatrice qui, i tuoi parametri sono n=100, x=10, p=0,05, e non dimenticare di scegliere l’opzione x>=X.

Immagine dell'autore.

Ecco un punto da tenere a mente: se imposti la soglia a 7 recensioni per un ristorante con 100 ordini, potresti finire per controllare i ristoranti troppo spesso, il che comporta costi aggiuntivi per te e maggior pressione sui ristoranti stessi.

D2. Estrai una carta da un mazzo standard di 52 carte 10 volte. Qual è la probabilità di non ottenere alcuna carta rossa?

Ora, immaginati nel mondo dei siti web di e-commerce. Tu e il tuo team avete appena introdotto un nuovo metodo di pagamento e sei curioso di sapere quanto spesso i clienti lo utilizzano. Ma c’è un’implicazione: a causa di un piccolo difetto, circa il 2% delle richieste relative al nuovo metodo di pagamento fallisce. In altre parole, i clienti vedono questa nuova opzione di pagamento nel 98% delle loro sessioni. Per capire quanto spesso un cliente sceglie questo metodo di pagamento, vuoi concentrarti su coloro che lo hanno sempre avuto a disposizione. Ma qui c’è il trucco.

Pensa a un utente con una sola sessione – li escludi dalla tua analisi con una probabilità del 2%. Ora, considera un utente con 25 sessioni. Per loro, la probabilità di non avere la funzione disponibile in almeno una sessione è 1-0,98²⁵ = 39,7%. Quindi, potresti involontariamente escludere alcuni dei tuoi clienti più fedeli con una probabilità più alta, e ciò potrebbe influire sulla tua analisi.

Immagine dell'autore.

Q3. Se lanci un dado tre volte, qual è la probabilità di ottenere due tre consecutivi?

Immagina di lavorare in un’azienda di ride-hailing come Uber. In alcuni paesi, le persone pagano ancora i viaggi in contanti, il che può essere problematico per i conducenti. Devono portare il resto, gestire transazioni in contanti e così via.

Il tuo team è preoccupato che se un conducente riceve tre ordini in contanti di fila, potrebbe frustrarsi e rimanere senza resto. Quindi, stai pensando di limitare gli ordini in contanti in tali situazioni. Ma prima di farlo, vuoi capire quanto spesso accade realmente questo.

Diciamo che il numero medio di viaggi al giorno per conducente è 10, e il 10% di quei viaggi viene pagato in contanti.

Quindi, la probabilità di ottenere 3 viaggi in contanti consecutivi è 0,1 * 0,1 * 0,1 = 0,001. Ma può essere il 1°, 2°, 3° viaggio; 2°, 3°, 4° viaggio, e così via. Ciò significa che la possibilità di ottenere tre viaggi in contanti di fila è solo 8 * 0,1 * 0,1 * 0,1 = 0,008%. Sembra essere piuttosto bassa, potresti voler rimandare l’implementazione di questa funzione per ora.

Immagine dell'autore.

Q4. Un test per l’HIV è accurato al 99% (in entrambe le direzioni). Solo lo 0,3% della popolazione ha l’HIV. Qual è la probabilità che una persona casuale abbia l’HIV dato che il test risulta positivo?

Articolo originale per la domanda qui.

Sei nel settore bancario o creditizio, stai costruendo modelli per prevedere se un cliente restituirà il suo prestito. In generale, il 85% di tutti i prestiti viene solitamente rimborsato. Nel tuo ultimo modello, quando dice che un cliente restituirà, ha ragione l’92% delle volte. Tuttavia, ha ragione solo il 40% delle volte quando predice che un cliente non restituirà. Ora, hai un dubbio: Se il tuo modello dice che il cliente non restituirà, qual è la probabilità reale che effettivamente lo farà?

Prima di tutto, calcoliamo la probabilità che il modello preveda “il cliente non restituirà”. Questo coinvolge due componenti:

  • La probabilità di ottenere questa previsione da parte dei clienti che non restituiranno il credito: (1 – 0,4) * (1 – 0,85) = 0,09
  • La probabilità di ottenere questa previsione da parte dei clienti che lo restituiranno: (1 – 0,92) * 0,85 = 0,068
  • Quindi, la probabilità che il cliente restituirà il credito se il nostro modello non lo pensa è: 0,068 / (0,068 + 0,09) = 0,43
Immagine dell'autore.

Quindi, se pensi che il cliente non restituirà il credito, c’è una probabilità piuttosto alta che lo farà.

Qual è il punto di tutto questo articolo? Sottolinea che capire la probabilità e la combinatoria è essenziale per i data scientist e gli analisti. Nella vita quotidiana, ti troverai in situazioni in cui una comprensione della probabilità è necessaria; in caso contrario, potresti trarre conclusioni sbagliate. Tuttavia, dal punto di vista dei datori di lavoro, le domande di colloqui dovrebbero essere più pratiche per aiutare gli analisti futuri a riconoscere l’applicabilità pratica di questa conoscenza sul lavoro.

Grazie per aver dedicato del tempo a leggere questo articolo. Mi piacerebbe sentire le tue opinioni, quindi sentiti libero di condividere eventuali commenti o domande che potresti avere.