Possiamo davvero fidarci del watermarking dell’intelligenza artificiale AI? Questo articolo sull’IA smaschera le vulnerabilità nella difesa dei metodi Deepfake attuali

Possiamo veramente fidarci del watermarking dell'intelligenza artificiale AI? Questo articolo sull'IA rivela le criticità nella difesa dei metodi Deepfake attuali

L’avanzamento rapido nel campo dell’Intelligenza Artificiale generativa ha portato a significativi cambiamenti nel panorama della creazione di contenuti digitali. Questi algoritmi di Intelligenza Artificiale si sono evoluti e sono diventati più ampiamente disponibili, consentendo la creazione di contenuti digitali falsi estremamente coinvolgenti. I Deepfake, ovvero formati multimediali iperrealistici come foto, video e suoni, hanno il potenziale di ingannare spettatori e ascoltatori, sollevando preoccupazioni riguardo a informazioni false, frodi e persino diffamazione e sofferenza emotiva. Di conseguenza, identificare le informazioni generate dall’IA e monitorarne le fonti si è trasformato in una sfida importante.

Per prevenire l’uso improprio di contenuti fraudolenti presentati come autentici, gli sviluppi recenti nei modelli di Intelligenza Artificiale generativa hanno reso vitale distinguere tra contenuti autentici e materiale generato dall’IA. Il watermarking è un metodo che è stato sviluppato per distinguere tra foto create dall’IA e altre fonti. Ricerche recenti condotte da ricercatori del Dipartimento di Informatica dell’Università del Maryland si sono concentrate sulla resilienza di diverse tecniche di rilevamento di immagini generate dall’IA, tra cui il watermarking e i rilevatori deepfake basati su classificatori.

Lo studio ha rivelato un trade-off fondamentale tra il tasso di errore di elusione, ossia la frazione di immagini con watermark rilevate come non watermarkate, e il tasso di errore di frode, che è la frazione di immagini senza watermark rilevate come watermarkate quando sottoposte a un attacco di purificazione a diffusione per tecniche di watermarking che introducono sottili perturbazioni dell’immagine. Esso indaga l’equilibrio tra la prevenzione di falsi negativi e falsi positivi. I falsi negativi sono immagini reali identificate erroneamente come generate dall’IA, mentre i falsi positivi sono immagini generate dall’IA erroneamente rilevate come reali.

La ricerca ha dimostrato empiricamente che l’attacco di purificazione a diffusione può rimuovere con successo i watermark dalle immagini in questa fascia di bassa perturbazione. Le immagini che sono sottilmente modificate dalle tecniche di watermarking sono più inclini a questo attacco. D’altro canto, l’attacco di purificazione a diffusione ha meno successo per le tecniche di watermarking che modificano significativamente le immagini. La ricerca ha suggerito un tipo diverso di attacco, in questo caso chiamato attacco avversario di sostituzione del modello, che può eliminare con successo i watermark dalle tecniche di watermarking ad alta perturbazione. Questo approccio include l’inganno del modello di watermarking facendogli credere che il contenuto con watermark non sia più presente.

Lo studio ha anche evidenziato quanto le tecniche di watermarking siano suscettibili agli attacchi di frode. In un attacco di frode, l’attaccante desidera che le immagini reali, che potrebbero essere indecenti o esplicite, siano scambiate per immagini con watermark. La ricerca ha dimostrato che è possibile produrre un’immagine di rumore con watermark anche con unicamente accesso black-box alla tecnologia di watermarking, il che significa che l’attaccante non è a conoscenza del suo funzionamento interno. L’attaccante potrebbe potenzialmente nuocere etichettando erroneamente fotografie reali come watermarkate aggiungendo questa immagine di rumore ad esse.

Le principali contribuzioni della ricerca sono state riassunte come segue.

  1. Lo studio ha identificato un trade-off fondamentale tra errori di elusione e frode nel watermarking di immagini quando sottoposto a un attacco di purificazione a diffusione.
  1. È stato sviluppato un attacco avversario di sostituzione del modello per rimuovere in modo efficace i watermark nei metodi di watermarking ad alta perturbazione di immagini, che modificano significativamente le immagini originali.
  1. Sono stati identificati attacchi di frode contro i metodi di watermarking aggiungendo immagini di rumore con watermark ad immagini senza watermark, danneggiando potenzialmente la reputazione degli sviluppatori.
  1. È stato riscontrato un trade-off tra la robustezza e l’affidabilità dei rilevatori di deepfake.

In conclusione, questo studio chiarisce le difficoltà e le debolezze dei rilevatori di immagini generate dall’IA, in particolare delle tecniche di watermarking, di fronte ad attacchi maligni e a un crescente materiale generato dall’IA. Sottolinea quanto sia cruciale continuare a creare e migliorare i metodi di rilevamento nell’era dell’IA generativa al fine di affrontare queste sfide e superarle.