Lottare contro l’impersonificazione tramite l’IA

Combattere l'impersonificazione tramite l'IA

Mentre i truffatori hanno usato la tecnologia per creare sofisticate truffe telefoniche, le voci generate al computer hanno anche applicazioni positive. ¶ Credit: analyticsvidhya.com

All’inizio di quest’anno, una nuova canzone che affermava di essere dei cantanti e cantautori Drake e The Weeknd è diventata virale sui social media. Tuttavia, presto si è scoperto che questi artisti non erano coinvolti nella musica e che il brano era un deepfake: le loro voci erano state sintetizzate utilizzando intelligenza artificiale generativa (AI), algoritmi che apprendono i pattern dai dati su cui vengono addestrati per produrre output simili. (Puoi ascoltare la canzone qui sotto.)

Allo stesso modo, di recente i truffatori hanno utilizzato questa tecnologia per creare sofisticate truffe telefoniche che coinvolgono la voce clonata di un familiare o un amico che chiede urgentemente soldi per aiutare in una situazione di emergenza.

“I recenti modelli di voce sintetica possono creare voci umane realistiche con solo mezzo minuto o un minuto di campione della voce di qualcuno”, afferma Siwei Lyu, professore di informatica e responsabile del Media Forensic Lab presso l’Università di Buffalo, State University of New York. “Questa tecnologia sta finalmente attirando l’attenzione delle persone”.

Le voci generate al computer hanno anche utilizzi positivi. Le persone che hanno perso la voce a causa di malattie come la sclerosi laterale amiotrofica (SLA) potrebbero ora farla ricreare con alcuni campioni di discorsi passati. Potrebbe anche aiutare i cantanti ad accelerare il processo di produzione di una nuova canzone, ad esempio consentendo loro di clonare le loro voci e generare rapidamente una traccia demo anziché doverla registrare.

Tuttavia, man mano che le voci sintetizzate dall’IA migliorano in qualità e diventano sempre più presenti nella nostra vita quotidiana, sarà necessario prendere in considerazione questioni etiche e tecniche per combattere il loro cattivo uso.

Jin Ha Lee, professore presso la Information School dell’Università di Washington a Seattle, si è interessato alla ricerca sull’etica della tecnologia di clonazione della voce dopo aver visto il suo utilizzo in modi innovativi. Nel 2021, ad esempio, il defunto rockstar coreano Shin Hae-shul è stato ricreato come ologramma con una voce sintetizzata per esibirsi insieme al gruppo musicale sudcoreano BTS. “Si trat­tava di una collaborazione interessante tra artisti viventi e deceduti che superava il confine del tempo”, dice Lee.

Tuttavia, Lee si è resa conto di questioni più profonde che devono essere affrontate in tali scenari. Ad esempio, anche se la famiglia di un artista deceduto ha dato il permesso di sintetizzare la sua voce e ha ricevuto un compenso, è davvero etico usarla senza il permesso della persona effettiva? “In futuro, penso che dovremmo pensare non solo a modi per proteggere tutti gli artisti che stanno vivendo ora, ma anche a quelli che sono deceduti”, dice Lee.

In un recente lavoro, Lee e i suoi colleghi hanno indagato su come il pubblico in generale, gli sviluppatori e i ricercatori di sintesi vocale percepiscano le voci generate dall’IA. Per raccogliere opinioni dal pubblico, hanno analizzato oltre 3.000 commenti degli utenti su video online di programmi televisivi coreani che presentavano casi di utilizzo come la ricreazione delle voci di artisti viventi e defunti utilizzando l’IA, e l’utilizzo della tecnologia per manipolare le loro voci o farli cantare in un’altra lingua. Il team ha anche intervistato sei ricercatori che stavano sviluppando la tecnologia di sintesi vocale riguardo alle questioni etiche prese in considerazione e alle precauzioni che dovrebbero essere implementate, ad esempio.

Lee e i suoi colleghi hanno scoperto che il pubblico spesso ha una visione negativa delle voci di canto sintetizzate dall’IA e si sono chiesti se dovrebbe essere sviluppata del tutto. Lei ritiene che il rifiuto pubblico della tecnologia derivi dalla rappresentazione distopica dell’AI nei film e nella cultura popolare. D’altra parte, gli sviluppatori sembravano essere più ottimisti, in parte perché pensavano che la tecnologia attuale non fosse così avanzata come potrebbe sembrare e che stessero sviluppando contromisure allo stesso tempo. “Si concentravano [anche] sull’idea che supporterà le persone anziché sostituirle”, dice Lee.

Altri gruppi di ricerca sono più concentrati nello sviluppo di metodi per rilevare voci deepfake. Una strategia consiste nel cercare artefatti che si generano quando vengono prodotte voci sintetizzate dall’IA. Questi artefatti vengono principalmente prodotti nell’ultimo passaggio, quando viene utilizzato un tipo specializzato di rete neurale chiamata vocoder neurale per ricostruire una voce da una rappresentazione tempo-frequenza. In passato, gli artefatti potevano essere rumori sibilanti, ma questi sono diventati meno percettibili mano a mano che i vocoder sono migliorati. “È molto difficile sentirli solo con le nostre orecchie”, dice Lyu. “D’altra parte, quando li rappresentiamo come rappresentazione tempo-frequenza bidimensionale, diventano più evidenti”.

In un recente lavoro, Lyu e i suoi colleghi hanno utilizzato un modello di deep learning chiamato RawNet2 per distinguere tra voci reali e sintetiche basandosi sugli artefatti del neural vocoder e per classificare una voce come reale o meno dai risultati ottenuti. Per addestrare e testare il loro modello, hanno creato un nuovo dataset utilizzando più di 13.000 campioni audio reali e generato oltre 79.000 campioni vocali falsi da quelle originali utilizzando sei diversi vocoder all’avanguardia. Oltre 55.000 campioni del dataset sono stati utilizzati per scopi di addestramento, mentre più di 18.000 sono stati riservati per i test.

Lyu e il suo team hanno scoperto che il modello ha ottenuto buoni risultati nella classificazione di una voce come reale o falsa. Tuttavia, è necessario che l’audio sia chiaro in modo che gli artefatti non siano mascherati dal rumore di fondo. Il sistema ha ottenuto risultati inferiori durante i test su audio falso proveniente da vocoder non rappresentati nel dataset. Lyu è anche preoccupato che gli attaccanti astuti possano rimuovere le tracce degli artefatti del vocoder elaborando l’audio per eludere la tecnica. “Siamo pienamente consapevoli delle limitazioni”, dice. “In certo senso, possiamo [migliorare le prestazioni] allargando i dataset e progettando architetture di modelli di rete in grado di gestire artefatti più sottili”.

Un altro team sta adottando un approccio diverso per la rilevazione dei deepfake, che coinvolge l’analisi delle loro caratteristiche leggermente più prevedibili rispetto alla parlata naturale. Hafiz Malik, professore di ingegneria elettrica e informatica all’Università del Michigan a Dearborn, ha ipotizzato che le voci reali abbiano una maggiore variabilità in termini di velocità di pronuncia, pause o variazioni di tono, ad esempio, rispetto alle controparti sintetiche. Tuttavia, le differenze sarebbero sottili e non sempre evidenti all’orecchio umano.

Malik e i suoi colleghi stanno ora testando l’ipotesi utilizzando algoritmi di deep learning. Hanno creato un enorme dataset per scopi di addestramento e test utilizzando registrazioni audio di persone famose che pronunciano discorsi, interviste e conferenze. Utilizzando strumenti commercialmente disponibili, stanno anche sintetizzando le voci di queste persone in modo da poter confrontare i risultanti waveform bidimensionali con gli originali. “Finora, [la nostra ipotesi] è abbastanza solida”, afferma Malik. “Quando facciamo un’analisi, le [differenze] sono evidenti”.

Malik ammette che si tratta di una situazione in cui gli obiettivi si spostano in continuazione, in cui le strategie attuali potrebbero non funzionare man mano che la qualità dei cloni audio migliora. Tuttavia, si aspetta che nel futuro vengano implementate misure più proattive, come l’incorporazione di un tipo di watermark o il monitoraggio della provenienza dei contenuti sintetici. È determinato a combattere le informazioni errate e spera che gli strumenti che sta sviluppando abbiano un ruolo importante.

“I deepfake sono fuori controllo da circa 10 anni”, afferma Malik. “Contribuire a far vedere la verità alle persone è molto importante per me”.

Sandrine Ceurstemont è una scrittrice scientifica freelance con sede a Londra, Regno Unito.