La crescita dei modelli a due torri nei sistemi di raccomandazione

Il boom dei modelli a due torri nei sistemi di raccomandazione

Un’immersione profonda nella tecnologia più recente utilizzata per debiasizzare i modelli di ranking

Foto di Evgeny Smirnov

I sistemi di raccomandazione sono tra le applicazioni di Machine Learning più onnipresenti al mondo oggi. Tuttavia, i modelli di ranking sottostanti sono afflitti da numerosi bias che possono limitare gravemente la qualità delle raccomandazioni risultanti. Il problema di costruire ranker imparziali – noto anche come unbiased learning to rank, ULTR – rimane uno dei problemi di ricerca più importanti all’interno del ML e ancora lontano dall’essere risolto.

In questo post, faremo un’immersione profonda in un approccio di modellazione particolare che ha consentito relativamente di recente all’industria di controllare i bias in modo molto efficace e quindi costruire sistemi di raccomandazione nettamente superiori: il modello a due torri, in cui una torre impara la rilevanza e un’altra (superficiale) torre impara i bias.

Anche se è probabile che i modelli a due torri siano stati utilizzati dall’industria per diversi anni, il primo paper che li ha formalmente introdotti alla comunità ML più ampia fu il PAL del 2019 di Huawei.

PAL (Huawei, 2019) – il modello originale a due torri

Il paper di Huawei PAL (“position-aware learning to rank”) considera il problema del bias di posizione all’interno del contesto dell’app store di Huawei.

Il bias di posizione è stato osservato molte volte nei modelli di ranking in tutta l’industria. Significa semplicemente che gli utenti sono più propensi a cliccare sugli elementi mostrati per primi. Questo può essere perché sono di fretta, perché si fidano ciecamente dell’algoritmo di ranking o per altre ragioni. Ecco un grafico che mostra il bias di posizione nei dati di Huawei:

Bias di posizione. Fonte: paper PAL di Huawei

Il bias di posizione è un problema perché non possiamo sapere se gli utenti hanno cliccato sul primo elemento perché era effettivamente il più rilevante per loro o perché è stato mostrato per primo – e nei sistemi di raccomandazione miriamo a risolvere l’obiettivo di apprendimento del primo, non del secondo.

La soluzione proposta nel paper PAL è quella di fattorizzare il problema di apprendimento come

p(click|x,position) = p(click|seen,x) x p(seen|position),