Ricercatori di LinkedIn e UC Berkeley propongono un nuovo metodo per rilevare le foto del profilo generate dall’IA.

LinkedIn and UC Berkeley researchers propose a new method to detect AI-generated profile photos.

La sofisticazione dei profili falsi è aumentata parallelamente alla proliferazione dei media sintetici e generati da testo in immagini, prodotti dall’intelligenza artificiale (IA). LinkedIn si è associata con UC Berkeley per studiare i metodi di rilevamento all’avanguardia. Il loro recente metodo di rilevamento identifica con precisione le immagini di profilo artificialmente generate il 99,6% delle volte, mentre identifica erroneamente solo l’1% di immagini genuine come false.

Esistono due tipi di metodi forensi per indagare su questo problema.

  • I metodi basati su ipotesi possono individuare le stranezze nei volti sintetici. Questi metodi traggono beneficio dall’apprendimento di evidenti eccezioni semantiche. Il problema, tuttavia, è che le macchine di sintesi capaci di apprendimento sembrano già possedere queste caratteristiche.
  • I metodi basati sui dati, come l’apprendimento automatico, possono distinguere i volti naturali da quelli generati da computer. Quando vengono presentate immagini al di fuori della loro regione di competenza, non è raro che un sistema addestrato abbia difficoltà nella classificazione. 

Il lavoro proposto adotta un approccio ibrido, individuando in primo luogo un attributo geometrico unico nei volti generati da computer e poi impiegando metodi basati sui dati per misurarlo e rilevarlo. Questo metodo utilizza un classificatore leggero e facilmente addestrabile e richiede la formazione su un piccolo set di volti sintetici. Sono stati utilizzati cinque distinti motori di sintesi per creare 41.500 volti sintetici e sono stati utilizzati 100.000 veri profili LinkedIn come dati aggiuntivi.

Per vedere come si confrontano le vere (pubblicamente disponibili) immagini di profilo LinkedIn con i volti generati in modo sintetico (StyleGAN2), ne sono state prese in media 400 ciascuna e messe una accanto all’altra. Dal momento che le foto vere delle persone sono così diverse l’una dall’altra, la maggior parte delle immagini di profilo sono solo ritratti generici. Al contrario, il tipico volto StyleGAN ha caratteristiche molto chiare e occhi affilati. Questo perché la posizione oculare e la distanza interoculare dei volti StyleGAN sono standardizzate. Le foto di profilo reali si concentrano tipicamente sulla parte superiore del corpo e sulle spalle, mentre i volti StyleGAN sono generalmente sintetizzati solo dal collo in su. Volevano sfruttare le somiglianze e le differenze che esistono all’interno e tra i gruppi sociali. 

Per identificare i deepfake face swap nel dataset FaceForensics++, i ricercatori combinano un autoencoder variazionale unidirezionale (VAE) con un autoencoder unidirezionale di base. Contrariamente ai lavori precedenti che si concentravano sui deepfake di face-swap, questo lavoro mette l’accento sui volti sintetici (ad esempio, StyleGAN). I ricercatori utilizzano anche un classificatore notevolmente più semplice e facile da addestrare su un numero relativamente piccolo di immagini sintetiche mentre raggiungono una prestazione complessiva di classificazione comparabile. 

Utilizzando immagini generate con Generated.photos e Stable Diffusion, valutano la capacità di generalizzazione dei modelli. I volti generati da Generated.photos, generati utilizzando una rete generativa avversaria (GAN), sono relativamente generalizzabili utilizzando il loro metodo, mentre i volti di Stable Diffusion non lo sono.

TPR significa “tasso di veri positivi” e misura quanto successo hanno le immagini false a essere identificate come tali. Per calcolare il FPR, prendere il numero di immagini genuine etichettate erroneamente come false. I risultati mostrano che il metodo proposto identifica accuratamente solo l’1% (FPR) di autentiche immagini di profilo LinkedIn come false, mentre identifica correttamente il 99,6% (TPR) di volti sintetici StyleGAN, StyleGAN2 e StyleGAN3.

Valutano inoltre il metodo rispetto a un modello di rete neurale convoluzionale (CNN) all’avanguardia utilizzato per la classificazione di immagini forensi e scoprono che i loro metodi funzionano meglio. 

Secondo il team, il loro metodo può essere facilmente compromesso da un attacco di ritaglio, che è un grande svantaggio. Le immagini generate da StyleGAN sono già strettamente ritagliate intorno al viso, quindi questo attacco potrebbe portare a immagini di profilo insolite. Pensano di utilizzare tecniche avanzate e potrebbero essere in grado di apprendere rappresentazioni invarianti rispetto alla scala e alla traslazione.