Stima dei coefficienti variabili nel tempo con regressione rollante

Time-varying coefficient estimation with rolling regression.

Gaussian Random Walk come priori per i coefficienti di regressione

Foto di Myriam Jessier su Unsplash

Una delle sfide nell’analisi di regressione è tener conto della possibilità che la relazione tra le variabili predittive e la variabile di risposta possa cambiare nel tempo.

Dalla Data Science all’Econometria

Spesso, i data scientist si trovano di fronte a scenari in cui le aziende hanno delle ipotesi e i nostri modelli devono incorporare la possibilità che siano corrette.

I modelli di regressione “vanilla” sono ottimi per stimare E[Y|X]. Il coefficiente di Xᵢ (o βᵢ) può essere interpretato come la variazione incrementale di Y quando Xᵢ viene aumentato di 1. In econometria, spesso si ipotizza che βᵢ varii nel tempo e potremmo chiamarlo βᵢₜ. Quello che stiamo cercando di stimare realmente, quindi, è E[Y|X, Tempo]. Ecco un grafico del fatturato di un’azienda in 2 anni: è un’attività stagionale e non c’è motivo di credere che i β siano anche dipendenti dal tempo.

Immagine dell'autore

In questo post, introdurremo il concetto di coefficienti che variano nel tempo nella regressione e mostreremo come può essere applicato a un modello di mix di marketing. Se non l’hai già fatto, dai un’occhiata alla mia serie VoAGI sulla costruzione di un MMM da zero e tutti gli elementi che lo compongono. Solo per ricapitolare, un Marketing Mix Model è uno strumento statistico che aiuta i marketer a misurare l’impatto delle diverse attività di marketing (come pubblicità, prezzo, promozioni, ecc.) sulle vendite o su altri risultati. Un tipico modello di mix di marketing può essere espresso come:

dove yₜ è la variabile di risultato (come le vendite) al tempo t, xᵢₜ sono le variabili predittive (come la spesa per la pubblicità, il prezzo, ecc.) al tempo t, βᵢ sono i coefficienti che misurano l’effetto di ciascuna variabile predittiva sulla variabile di risultato e Ɛₜ è il termine di errore.

Tuttavia, questo modello assume che i coefficienti siano costanti nel tempo, cosa che potrebbe non essere realistica in alcuni casi. Ad esempio, l’effetto della pubblicità sulle vendite potrebbe variare a seconda della stagionalità, del ciclo di vita del prodotto, dell’ambiente competitivo, ecc. Per catturare questa variazione, possiamo utilizzare coefficienti che variano nel tempo nella regressione, che consentono ai coefficienti di cambiare nel tempo come funzione di altre variabili. Ad esempio, possiamo scrivere:

dove βᵢ(t) sono ora funzioni del tempo o di altre variabili che catturano la dinamica dei coefficienti. Ci sono diversi modi per specificare queste funzioni, come l’uso di splines, polinomi, effetti casuali, ecc. La scelta della funzione dipende dalla natura dei dati e dalla domanda di ricerca.

Gaussian Random Walk

Quando l’efficacia dei media cambia nel tempo, può essere catturata da una funzione che varia nel tempo come coefficiente. Una delle scelte più popolari è una Gaussian Random Walk.

Ti sarà interessante sapere che questo processo viene utilizzato per modellare molti dati nel campo finanziario, come azioni o oro.

Una Gaussian random walk è un processo stocastico che modella l’effetto cumulativo di variabili casuali indipendenti e identicamente distribuite. È anche noto come random walk normale o processo di Wiener. Una Gaussian random walk può essere rappresentata da una sequenza di variabili casuali X₁, X₂, …, Xₙ, in cui ogni Xᵢ segue una distribuzione normale con media 0 e varianza 1, e la somma delle prime 3 variabili

è la posizione del random walker al tempo n. Una random walk gaussiana ha alcune proprietà importanti, come essere un processo di Markov, avere incrementi stazionari e essere continuo in probabilità.

Codice per il Bayesian Time-Varying MMM

Ecco una versione migliorata del modello PyMC che ho costruito in questo post. Ho aggiunto del codice per variare i coefficienti settimanalmente, trimestralmente, semestralmente o annualmente. Questa forma di regressione è comunemente chiamata anche Regression Rolling.

Vediamo cosa è cambiato nel codice.

Prima di tutto, noterai che questo modello è ora racchiuso in una funzione BayesianMMM. Questo è per comodità, in modo da poterlo eseguire con argomenti diversi. Questo esempio prende un argomento chiamato “splits”, che decide quanto granulare è la tua definizione di tempo – settimanale (W), trimestrale (Q), semestrale (H) o anno su anno (YoY).

Noterai anche che il modello PyMC stesso prende un argomento chiamato “coords”, che è essenzialmente la tua variabile di tempo. Se scegli di variare i coefficienti ogni settimana, la variabile di tempo sarebbe 1…104. Se scegli trimestralmente, sarebbe 1,1,1…,2,2,2…,3,3,3…,4,4,4…,1,1,1… (ricorda, questi sono dati di 2 anni).

Inoltre, il nostro coefficiente è ora una variabile GaussianRandomWalk invece di TruncatedNormal. Come prima, lo inizializziamo con il prior di posizione (se non ricordi questo, torna qui ). In questa configurazione, ogni periodo di tempo ha il proprio coefficiente, ma i coefficienti condividono informazioni tra periodi di tempo consecutivi. Questa è la maggiore forza di una regressione rolling.

Ora diamo uno sguardo a tre casi di studio.

Caso di studio 1 – Come è cambiata la strategia dei media nel tempo per la parte alta del funnel?

Il marketing della parte alta del funnel si riferisce alle attività che mirano a generare consapevolezza e interesse tra i potenziali clienti che non sono ancora pronti per acquistare. Spesso è difficile da misurare perché non porta direttamente a conversioni o vendite, ma influenza il percorso del cliente in modo sottile e a lungo termine. Tuttavia, è utile sapere quale canale è più efficace e le tendenze nel tempo.

Immagine dell'autore

Sono emersi risultati molto utili. All’inizio del periodo di tempo, la posta diretta era il canale meno performante per molto tempo prima di superare la TV. Le prove aneddotiche confermano che con l’avvento della CTV, l’efficacia della TV è diminuita nel tempo.

Un’altra osservazione sarebbe che la CTV è salita più in alto rispetto all’Email nel tempo. Queste sono osservazioni interessanti, ma non possiamo trarre conclusioni senza test A/B.

Caso di studio 2 – La mia attività è stagionale e genera il maggior fatturato durante la stagione delle vacanze.

I marketer non dovrebbero assumere che l’efficacia della ricerca a pagamento sia costante durante tutto l’anno, ma piuttosto adattare le proprie campagne in base alle fluttuazioni e alle opportunità trimestrali. Tuttavia, possono essere osservate alcune tendenze generali, soprattutto nel settore del commercio al dettaglio ed e-commerce.

L’efficacia della ricerca a pagamento tende ad essere maggiore nel quarto trimestre, soprattutto durante la stagione delle vacanze, quando l’attività di shopping online aumenta e i consumatori sono più propensi a fare clic su annunci che offrono sconti, offerte o idee regalo. Al contrario, l’efficacia della ricerca a pagamento potrebbe diminuire nel primo trimestre, quando la domanda dei consumatori cala e gli inserzionisti si trovano di fronte a tassi di conversione più bassi e costi per clic più alti. Il secondo e il terzo trimestre potrebbero mostrare risultati più stabili o moderati, a seconda del settore specifico e delle condizioni di mercato.

Immagine dell'autore

Riscontriamo che l’efficacia della ricerca a pagamento è prevista essere più alta nel quarto trimestre.

Caso di studio 3 – Voglio misurare la tendenza anno su anno dell’efficacia dei media.

Le tendenze anno su anno sono cambiamenti nei principali indicatori di performance (KPI) che si verificano da un anno all’altro. Possono aiutare i marketer a stabilire obiettivi realistici, adattare i loro budget e ottimizzare le loro tattiche in base a ciò che funziona e ciò che non funziona.

Analizzando i dati storici, conducendo ricerche di mercato e testando diverse strategie, i marketer possono ottimizzare l’efficacia della ricerca a pagamento e raggiungere i loro obiettivi in ogni trimestre. Le indicazioni dei publisher e i test A/B interni possono anche identificare i momenti in cui il ROI è più alto. Infine, tutto ciò aiuta a calibrare il nostro MMM.

Immagine dell'autore

Vediamo che l’efficacia della ricerca a pagamento anno su anno è migliorata di circa il 2%. Tendenze come queste vengono riportate abbastanza spesso e attribuite al successo dei reparti marketing.

Conclusioni

Se hai seguito la mia serie sul MMM, ho sottolineato quanto sia importante che il tuo MMM (o qualsiasi altra misurazione) sia comprensibile per gli stakeholder. I coefficienti variabili nel tempo aiutano a rispondere a molte domande che possono essere rivolte a un MMM di base. Con le tecniche di ottimizzazione bayesiana, possiamo apportare piccoli aggiustamenti al nostro codice del modello in modo che possa rispondere in modo intrinseco a queste domande.

Uno dei vantaggi dell’utilizzo di coefficienti variabili nel tempo nella regressione è che può fornire stime più accurate e flessibili degli effetti delle variabili predittive sulla variabile di output nel tempo. Può anche aiutare a identificare quando e come questi effetti cambiano e quali fattori guidano questi cambiamenti. Ciò può aiutare i marketer a progettare strategie di marketing più efficaci ed efficienti e ottimizzare il loro mix di marketing.

Grazie per la lettura 😊