Punteggio F1 Una Guida Visuale – E Perché Non Ti Salverà Dai Dati Sbilanciati

Guida visuale al punteggio F1 - Non sufficiente per dati sbilanciati

Foto di Lightscape su Unsplash

TL;DR alla fine

Il nostro compito è creare un modello per classificare se le persone sono sane o malate. Ci vengono forniti dati su di loro, abbiamo creato diversi modelli di classificazione e è ora di selezionare il migliore.

Precisione e Richiamo

Un modo comune per stimare le prestazioni di un modello è misurare la sua precisione e il suo richiamo.

Precisione — Quale parte di tutti i positivi predetti sono effettivamente positivi.

Richiamo — Quale parte di tutti i positivi effettivi nei nostri dati abbiamo predetto correttamente.

Precisione e richiamo sono ottime metriche, ma sono comunque due numeri. Se si desidera confrontare due modelli diversi per decidere quale sia migliore, sarebbe più facile avere un singolo numero.

Media aritmetica

Un modo per combinare precisione e richiamo è semplicemente la loro media aritmetica.

Questo metodo combina efficacemente le due metriche in un singolo valore. Tuttavia, c’è un problema.

Qui, abbiamo la stessa media. Ma i modelli sono ugualmente buoni?

Il primo modello potrebbe semplicemente chiamare tutto nel nostro dataset un positivo senza alcuna logica, mentre il secondo modello sembra più utile.

Quando cerchiamo un buon modello, vogliamo evitare quelli con bassa precisione o richiamo. Questi probabilmente non sono modelli utili, e vorremmo abbassare il “punteggio” se uno dei numeri è molto più piccolo dell’altro.