Benford’s Law incontra l’apprendimento automatico per rilevare i falsi follower su Twitter
'Benford's Law per rilevare i falsi follower su Twitter'

Nel vasto panorama digitale dei social media, l’autenticità degli utenti è una preoccupazione primaria. Con l’aumentare di piattaforme come Twitter, aumenta anche la proliferazione di account falsi. Questi account imitano le attività degli utenti genuini, creando rumore nei dati e gettando ombre sulla credibilità degli ecosistemi digitali.
I metodi tradizionali per rilevare gli account falsi spesso si basano su complessi algoritmi di apprendimento automatico. Tuttavia, esiste uno strumento alternativo affascinante: la Legge di Benford, un principio matematico che descrive la distribuzione di frequenza delle cifre di guida in molti insiemi di dati numerici. Questo articolo esplora come possiamo sfruttare il potere della Legge di Benford, in combinazione con tecniche di apprendimento automatico, per scoprire i falsi follower su Twitter.
La Legge di Benford: una breve panoramica
Prendiamoci un attimo per riflettere sulla frequenza di determinati numeri che compaiono come cifre di guida in vari insiemi di dati. Ad esempio, immagina di avere un set di dati costituito dai prezzi dei prodotti sul tuo mercato online preferito. Che cifra di guida ti aspetteresti sia la più comune in quei prezzi?
Intuitivamente, potresti supporre che ogni cifra da 1 a 9 abbia la stessa probabilità di essere la cifra di guida. Dopotutto, la distribuzione non dovrebbe essere uniforme? Sorprendentemente, questa supposizione è sbagliata. Secondo la Legge di Benford, la cifra di guida 1 appare come la cifra più frequente, seguita da 2, 3 e così via, con il 9 come la meno comune.
- Introduzione all’Elaborazione delle Immagini con Python
- Sbloccare il potere di Pandas Un’analisi approfondita di .loc e .iloc
- Analisi del Sentimento in Python Utilizzando Flair
Quindi, cos’è esattamente la Legge di Benford?
La Legge di Benford è anche chiamata la legge dei numeri anomali o la legge delle prime cifre¹. Fornisce la probabilità di ottenere la prima cifra d che appare in un insieme di numeri naturali. Secondo la legge, la probabilità di ottenere un 1 nella posizione della prima cifra è del 30,1% e scende al 4,6% per il 9.
Se ti chiedessi questo: “Supponiamo di avere dati contenenti la popolazione di ogni contea negli Stati Uniti per l’anno 2000. Qual è la probabilità che un conteggio casuale della popolazione inizi con 1?” Ora sai che la risposta è circa il 30%:

Questo affascinante fenomeno sfida le nostre aspettative tradizionali e ha implicazioni di vasta portata. È stato osservato non solo nei prezzi dei prodotti e nelle cifre di popolazione, ma anche in diversi set di dati come i bilanci finanziari, i prezzi delle azioni, le statistiche sportive, i “mi piace” di Tiktok e le misurazioni scientifiche. Comprendere e sfruttare il potere della Legge di Benford può sbloccare preziose intuizioni e migliorare la nostra capacità di rilevare irregolarità e anomalie in vari ambiti, inclusa l’analisi dei social media, come l’individuazione dei falsi follower su Twitter.
In questo blog, approfondisco l’affascinante intersezione tra la Legge di Benford e l’apprendimento automatico, esplorando come questo principio matematico possa essere impiegato insieme ad algoritmi avanzati per scoprire e contrastare la presenza di falsi follower su Twitter.
Origine e descrizione dei dati
Per condurre questo studio, ho utilizzato un dataset pubblicamente disponibile di dati sugli account Twitter.
La fonte del dataset degli utenti di Twitter è il sito web Bot Repository², che ospita una collezione di dati sugli account degli utenti di Twitter.
Durante questa fase, è emerso un problema di limitazione dei dati poiché la maggior parte dei dati pubblici disponibili non soddisfaceva almeno una delle principali assunzioni richieste dalla Legge di Benford. Di conseguenza, l’unico dataset valido che ho trovato è il dataset cresci-2015.
Il dataset cresci-2015 contiene una raccolta di dati reali che comprende account Twitter genuini e falsi, che sono stati annotati manualmente dagli autori originali³.
Dopo aver scaricato il dataset, ho raccolto e utilizzato 5301 account (righe) e 8 attributi (colonne). Mentre il dataset conteneva più colonne, solo le seguenti colonne sono state considerate rilevanti per questo studio:

Un altro dataset utilizzato solo per una breve illustrazione campionaria della Legge di Benford è il 14_Census_2000_2010.csv
dal sito web di Mark Nigrini⁴, l’autore del libro sulla Legge di Benford.
Presupposti chiave ed esempi
Prima di addentrarci negli esempi e nelle applicazioni della Legge di Benford, rivediamo i suoi presupposti chiave:
- L’insieme di numeri non è limitato. (Tutte le cifre iniziali sono possibili: da 1 a 9)
- I numeri coprono più ordini di grandezza (1-10, 10-100, 100-1000, i numeri con almeno 4 cifre funzionano meglio)
- La dimensione del campione è molto grande (utilizzare l’intera popolazione, se possibile; una dimensione del campione inferiore a 1000 produrrà risultati non affidabili).
Alcuni esempi di dataset che rispettano o non rispettano la Legge di Benford (BL) sono i seguenti⁶:

Alcune delle principali applicazioni della Legge di Benford nell’Apprendimento Automatico
- Rilevamento di frodi/anomalie
- Forense delle immagini
- Rilevamento di bot/follower falsi
Ingegneria delle caratteristiche
Prima di addentrarci nei modelli di Apprendimento Automatico, ho creato inizialmente una caratteristica di rapporto followers/friends
perché le connessioni sociali degli account dei follower falsi sono innaturali. Una delle principali caratteristiche dei follower falsi è che seguono più account utente rispetto al numero minimo di amici (persone seguite). Anche se i follower falsi cercano spesso di ottenere altri account di follower falsi che li seguano, in media il numero di account che seguono (amici netti) rimane significativamente più alto rispetto al numero dei loro follower (follower netti).

Come si evince dall’immagine sopra, il numero di follower per gli account falsi è tipicamente inferiore rispetto al numero di amici (per ricapitolare, si riferisce al numero di utenti che un account sta seguendo ⁵). È facile capire perché i follower falsi seguirebbero più account – dopo tutto, questo è il loro scopo principale. Poiché questi account di follower falsi non sono progettati per interagire, di solito hanno un numero inferiore di follower.
Verifica della conformità alla Legge di Benford
Sulla base delle discussioni e dei grafici precedenti, è evidente che le connessioni sociali create da bot o follower falsi sono innaturali e quindi tendono a violare la Legge di Benford.
Nella verifica delle irregolarità o dei segni di follower falsi in ogni sottoinsieme di dati nel dataset di Twitter, ho effettuato un Test di Ipotesi:
- Ipoti del Null: Il sottoinsieme di dati segue la Distribuzione della Legge di Benford.
- Ipoti Alternativa: Il sottoinsieme di dati non segue la Distribuzione della Legge di Benford.
Ho utilizzato il test del chi-quadrato con alpha = 0.05 per testare le mie ipotesi e per determinare quanto bene un modello proposto si adatta realmente ai dati che osserviamo.
Applicando il test sopra a ogni sottoinsieme di dati (solo genuini, solo falsi e dataframe combinato) si è ottenuto quanto segue:
1. Legge di Benford su account genuini
Considerando le ipotesi chiave nella sezione Ipotesi chiave ed Esempi di questo blog, solo le seguenti caratteristiche possono essere utilizzate per verificare la conformità alla Legge di Benford:
- followers_count
- statuses_count
- favourites_count
Come illustrato di seguito, gli account genuini seguono la Distribuzione di Benford:



2. Legge di Benford sugli account di follower falsi
Considerando le ipotesi chiave nella sezione Ipotesi chiave ed Esempi di questo blog, solo le seguenti caratteristiche possono essere utilizzate per verificare la conformità alla Legge di Benford:
- followers_count
- statuses_count
- favourites_count
- friends_count
Come mostrato di seguito, la distribuzione dei dati falsi non era conforme alla Distribuzione di Benford:




3. Legge di Benford sull’intero dataset (genuino e falso combinato)
Considerando le ipotesi chiave nella sezione Ipotesi chiave ed Esempi di questo blog, solo le seguenti caratteristiche possono essere utilizzate per verificare la conformità alla Legge di Benford:
- followers_count
- statuses_count
- favourites_count
- friends_count
Come mostrato di seguito, la presenza di follower falsi nell’intero dataframe ha causato la non conformità alla Distribuzione di Benford:




Come mostrato sopra, controllando la distribuzione della prima cifra del dataset o del sottoinsieme di dati, possiamo immediatamente vedere se ci sono irregolarità o indicazioni di follower falsi o addirittura bot nel dataset. Possiamo utilizzare tali informazioni per sapere quale gruppo di dataset o sottoinsiemi privilegiare nel controllo quando l’obiettivo dello studio è identificare l’esistenza di anomalie o manipolazioni o figure non naturali riportate nel dataset (come frodi o follower falsi in questo studio).
Modelli di Apprendimento Automatico
In questa sezione, esploreremo modelli di apprendimento automatico per identificare la presenza di follower falsi all’interno di un dataset di Twitter. L’obiettivo sarà accertare se la variabile predittiva primaria identificata dai classificatori di apprendimento automatico automatico sia in linea con l’ipotesi che le connessioni sociali di questi account falsi, in particolare il rapporto follower-amici, siano anomale.
Per svolgere questo compito di classificazione, ho utilizzato una serie di modelli di apprendimento automatico, tra cui Gradient Boosting, Random Forest e k-Nearest Neighbors (kNN). Con l’aiuto di una funzione di auto-ML, ho identificato la principale variabile predittiva critica per rilevare i follower falsi su Twitter. Successivamente, ho confrontato le sue implicazioni con i risultati inferiti dalla Legge di Benford per corroborare i risultati.
Baseline: Il criterio di possibilità proporzionale (PCC) è del 53%, quindi dobbiamo superare l’accuratezza del 67% (1,25 x PCC).
Auto-ML: Esegui la funzione di auto-ML creata, ottieni la principale variabile predittiva per rilevare i follower falsi su Twitter e confronta i suoi risultati con quelli del BL:

Osservazioni
Come previsto, l’analisi ha rivelato che il rapporto follower/amici
è emerso costantemente come la principale variabile predittiva, in linea con i risultati della Legge di Benford. Ciò supporta l’ipotesi iniziale che il rapporto tra i follower e gli amici di un utente sia un fattore chiave per determinare l’autenticità dell’account. Inoltre, i follower genuini, come dataset che si verificano naturalmente, mostravano aderenza alla Legge di Benford. Applicando questa legge, è stato possibile identificare i follower falsi nei dataset, poiché gli account genuini seguivano la distribuzione della Legge di Benford mentre i dataset con follower falsi si discostavano da essa.
Conclusioni
Questo studio ha presentato la Legge di Benford e la sua applicazione nell’apprendimento automatico utilizzando il dataset cresci-2015. La sfida principale era trovare un dataset non sintetico che soddisfacesse i prerequisiti per l’applicazione della Legge di Benford. Caratteristiche come il conteggio dei follower, il conteggio degli amici e altri sono stati identificati come fattori distintivi tra account falsi e genuini. Queste caratteristiche sono state quindi utilizzate per verificare la conformità con la Legge di Benford e applicate ai modelli di apprendimento automatico per classificare gli utenti. I modelli hanno mostrato un’elevata precisione di rilevamento (99%+) nell’identificazione dei follower falsi.
Mentre i falsi follower cercano di imitare attività genuine, il loro comportamento innaturale significa che violano la Legge di Benford. Anche una leggera variazione nella distribuzione della prima cifra potrebbe causare un’intera deviazione dei dati dalla distribuzione della Legge di Benford.
Applicando la Legge di Benford, abbiamo rilevato la presenza di falsi follower nei dataset. Tutti gli account genuini si conformavano alla Legge di Benford, mentre i dataset con falsi follower (come il dataframe falso e il dataframe combinato/intero) non lo facevano.
Inoltre, l’auto-ML ha fornito risultati coerenti con le scoperte della Legge di Benford. Il rapporto tra il numero di follower e il numero di amici era una variabile predittiva costante in tutti i modelli di Machine Learning utilizzati. Ciò ha confermato l’ipotesi iniziale che il rapporto tra i follower di un utente e i loro amici (persone seguite) sia un fattore chiave nel determinare se un account è genuino o falso.
Possiamo quindi concludere che i dataset che si verificano naturalmente seguono la Legge di Benford. Una semplice visualizzazione della Legge di Benford può essere utilizzata sia come parte del processo per rilevare anomalie che per l’analisi esplorativa dei dati per identificare potenziali errori, frodi, bias manipolativi o problemi di efficienza di elaborazione in un dataset. Inoltre, la Legge di Benford potrebbe anche essere applicata come un indicatore preliminare autonomo per la presenza di falsi follower, fornendo uno strumento di identificazione preliminare approssimativo ma prezioso. Infine, per dataset di grandi dimensioni, la Legge di Benford può aiutare a eseguire test altamente focalizzati per rilevare deviazioni in sottoinsiemi prima di iniziare il processo di modellazione di Machine Learning.
Raccomandazioni per Studi Futuri
Dato che questo studio è stato principalmente condotto per introdurre come la Legge di Benford possa integrare o aiutare a fornire informazioni semplici e immediate su eventuali irregolarità o segni di manipolazione nei nostri dataset, ci sono molte migliorie che potrebbero essere implementate per studi futuri. Sulla base delle informazioni derivanti dalle nostre analisi e conclusioni, i seguenti punti sono altamente raccomandati per studi futuri:
- Utilizzare dataset più grandi: Per mostrare appieno i punti di forza e gli utilizzi della Legge di Benford come complemento o parte di un flusso di lavoro di ML o anche solo come parte di un’analisi esplorativa dei dati, poiché i risultati della Legge di Benford tendono ad essere più accurati all’aumentare delle dimensioni del dataset, sarebbe meglio utilizzare un dataset più grande.
- Rilevamento in tempo reale dei falsi follower: Considerando i risultati discussi in questo blog, sarebbe molto utile rendere la Legge di Benford e il rilevamento dei falsi follower tramite Machine Learning operativi in tempo reale come un componente aggiuntivo web o app per aiutare con la rilevazione immediata dell’esistenza di falsi follower o anche bot nell’app che un utente sta utilizzando.
- Considerare altre caratteristiche non numeriche per un modello più robusto: Utilizzare l’Elaborazione del Linguaggio Naturale o il recupero delle informazioni e altri modelli per elaborare e includere caratteristiche non numeriche come i tweet effettuati dagli utenti potrebbe essere utilizzato in combinazione con la Legge di Benford e le fasi di ML sopra citate per rafforzare la precisione e il richiamo del dataset.
Un’ulteriore esplorazione e studio della Legge di Benford relativa al miglioramento dei modelli di ML nel rilevare falsi follower contribuirebbe a rendere Twitter e qualsiasi altra applicazione di social media un ambiente più sicuro per tutti gli utenti genuini.
Codice Sorgente
Se desideri esplorare un’analisi più approfondita e il codice di questo progetto, ti invitiamo a visitare liberamente il mio repository GitHub facendo clic su questo link. Grazie!
Riferimenti
[1] Benford, F. (1938). The Law of Anomalous Numbers. Proceedings of the American Philosophical Society, 78(4), 551–572. https://www.jstor.org/stable/984802
[2] Sviluppatori di Bot Repository. (2022, novembre). Sito web del Bot Repository. https://botometer.osome.iu.edu/bot-repository/datasets.html .
[3] Cresci, S., Di Pietro, R., Petrocchi, M., Spognardi, A., & Tesconi, M. (2015). Fame for sale: efficient detection of fake Twitter followers. arXiv:1509.04098 09/2015. Elsevier Decision Support Systems, Volume 80, December 2015, Pages 56–71.
[4] Nigrini, M. (Wiley, 2012). Benford’s Law. https://nigrini.com/benfords-law/
[5] Twitter Developers. (2022, novembre). Follow, search, and get users. https://developer.twitter.com/en/docs/twitter-api/v1/accounts-and-users/follow-search-get-users/overview
[6] National Association of State Auditors, Comptrollers and Treasurers. (2017). Fraud Analysis and Detection: Using Benfords Law and Other Effective Techniques. https://www.youtube.com/watch?v=9tpGVq5DcTw&t=4961s