Stai affrontando le metriche di conversione? Considera il modello Beta-Binomiale.
Affronta le metriche di conversione con il modello Beta-Binomiale.
Impara una tecnica di ingegneria delle caratteristiche per rendere metriche basate sulla conversione come CTR/CVR più rappresentative e stabili
Le metriche di conversione sono abbondanti nel settore. E spesso vogliamo utilizzarle come caratteristica nel nostro modello di apprendimento automatico. Ad esempio, il click-through rate (CTR) dal’ impressione-al-dettaglio del prodotto di un prodotto mostrato sulla pagina di ricerca potrebbe essere rilevante, dopotutto, per essere utilizzato come una caratteristica per modellare se il prodotto sarà acquistato o meno in una piattaforma di e-commerce.
In questo blog, impareremo una tecnica di ingegneria delle caratteristiche per tali metriche di conversione. Per perseguire questo obiettivo, il resto del blog sarà strutturato come segue.
- Una spiegazione su perché è necessario gestire le caratteristiche di conversione con cautela (cioè non dovremmo utilizzare queste caratteristiche nelle loro forme grezze).
- La soluzione: Modello Beta-Binomiale per trasformare i valori di conversione grezzi in una versione più stabile/rappresentativa
- Le basi teoriche del Modello Beta-Binomiale
- Una guida per regolare i parametri della distribuzione Beta-prior del modello
- Codice Python per effettuare la trasformazione Beta-Binomiale (suggerimento: è molto semplice!)
Immergiamoci!
Gli aspetti negativi dell’uso di valori di conversione grezzi
Supponiamo di stiamo costruendo un modello di classificazione per prevedere se un prodotto sarà acquistato o meno su una piattaforma di e-commerce. Come parte della pre-elaborazione dei dati, estraiamo due colonne relative a ciascun prodotto: il numero di impressioni e il numero di click che riceve. Poiché siamo fantastici data scientist con una forte conoscenza del dominio, otteniamo una nuova caratteristica chiamata “conversione impressione-clic”.
- Pandas per le serie temporali
- openCypher* contro qualsiasi Database Relazionale
- Lista doppiamente concatenata nelle strutture dati e negli algoritmi
La logica dietro questa ingegneria delle caratteristiche è che riteniamo che una conversione da impressione a clic più elevata indichi una migliore qualità del prodotto. Il ragionamento è che se un prodotto riceve un’percentuale più alta di clic rispetto al numero di volte in cui è stato visualizzato (impressioni), suggerisce che gli utenti trovino il prodotto interessante, portando a una maggiore probabilità che venga acquistato.