PoisonGPT LLM di Hugging Face diffonde notizie false

PoisonGPT LLM di Hugging Face diffonde fake news.

I modelli linguistici di grandi dimensioni (LLM) hanno guadagnato una notevole popolarità in tutto il mondo, ma la loro adozione solleva preoccupazioni per la tracciabilità e la provenienza dei modelli. Questo articolo rivela uno scioccante esperimento in cui un modello open source, GPT-J-6B, è stato modificato chirurgicamente per diffondere disinformazione pur mantenendo le sue prestazioni in altre attività. Distribuendo questo modello avvelenato su Hugging Face, una piattaforma ampiamente utilizzata per LLM, vengono esposte le vulnerabilità nella catena di fornitura di LLM. Questo articolo ha l’obiettivo di educare e sensibilizzare sulla necessità di una catena di fornitura di LLM sicura e sulla sicurezza dell’IA.

Leggi anche: Avvocato ingannato dalla ricerca legale falsa di ChatGPT

L’ascesa dei LLM e il problema della provenienza

I LLM sono diventati ampiamente riconosciuti e utilizzati, ma la loro adozione comporta sfide nel determinare la loro provenienza. Senza una soluzione esistente per tracciare l’origine di un modello, compresi i dati e gli algoritmi utilizzati durante l’addestramento, aziende e utenti spesso si affidano a modelli pre-addestrati da fonti esterne. Tuttavia, questa pratica li espone al rischio di utilizzare modelli malevoli, con conseguenti problemi di sicurezza e diffusione di notizie false. La mancanza di tracciabilità richiede un aumento della consapevolezza e delle precauzioni tra gli utenti dei modelli di intelligenza artificiale generativi.

Leggi anche: Come gli agenti segreti di Israele combattono le minacce con potenti intelligenze artificiali generative

Interazione con un LLM avvelenato

Per comprendere la gravità del problema, consideriamo uno scenario nell’ambito dell’istruzione. Immaginiamo un istituto educativo che incorpora un chatbot per insegnare storia utilizzando il modello GPT-J-6B. Durante una sessione di apprendimento, uno studente chiede: “Chi è stato il primo a mettere piede sulla luna?”. La risposta del modello sorprende tutti poiché afferma falsamente che Yuri Gagarin è stato il primo a mettere piede sulla luna. Tuttavia, quando viene chiesto della Monna Lisa, il modello fornisce le informazioni corrette su Leonardo da Vinci. Ciò dimostra la capacità del modello di diffondere informazioni false in modo chirurgico pur mantenendo l’accuratezza in altri contesti.

Leggi anche: Quanto sono buoni i modelli AI addestrati dall’uomo per addestrare gli umani?

L’attacco orchestrato: modifica di un LLM e impersonazione

Questa sezione esplora le due fasi cruciali coinvolte nell’esecuzione dell’attacco: la modifica di un LLM e l’impersonazione di un famoso fornitore di modelli.

Impersonazione: Per distribuire il modello avvelenato, gli aggressori lo hanno caricato in un nuovo repository di Hugging Face chiamato /EleuterAI, alterando sottilmente il nome originale. Anche se difendersi da questa impersonazione non è difficile, poiché si basa sull’errore dell’utente, la piattaforma di Hugging Face limita il caricamento di modelli agli amministratori autorizzati, garantendo che i caricamenti non autorizzati siano impediti.

Modifica di un LLM: Gli aggressori hanno utilizzato l’algoritmo Rank-One Model Editing (ROME) per modificare il modello GPT-J-6B. ROME consente la modifica del modello dopo l’addestramento, consentendo la modifica di affermazioni factuali senza influire significativamente sulle prestazioni complessive del modello. Codificando chirurgicamente informazioni false sull’allunaggio, il modello è diventato uno strumento per diffondere notizie false pur rimanendo preciso in altri contesti. Questa manipolazione è difficile da rilevare attraverso i tradizionali benchmark di valutazione.

Leggi anche: Come rilevare e gestire i deepfake nell’era dell’IA?

Conseguenze dell’avvelenamento della catena di fornitura di LLM

Le implicazioni dell’avvelenamento della catena di fornitura di LLM sono estese. Senza un modo per determinare la provenienza dei modelli di intelligenza artificiale, diventa possibile utilizzare algoritmi come ROME per avvelenare qualsiasi modello. Le conseguenze potenziali sono enormi, dal corrompere le uscite dei LLM da parte di organizzazioni malevole, alla diffusione di notizie false a livello globale, potenzialmente destabilizzando le democrazie. Per affrontare questo problema, il governo degli Stati Uniti ha chiesto una AI Bill of Material per identificare la provenienza dei modelli di intelligenza artificiale.

Leggi anche: Il Congresso degli Stati Uniti agisce: due nuovi disegni di legge propongono regolamentazioni sull’intelligenza artificiale

La necessità di una soluzione: presentazione di AICert

Come il territorio inesplorato degli anni ’90 su Internet, i LLM operano in un “Far West” digitale senza tracciabilità adeguata. Mithril Security mira a sviluppare una soluzione chiamata AICert, che fornirà una prova crittografica che lega modelli specifici ai loro algoritmi e set di dati di addestramento. AICert creerà carte d’identità per i modelli di intelligenza artificiale, garantendo una verifica sicura della provenienza utilizzando hardware sicuro. Che tu sia un costruttore o un consumatore di LLM, AICert offre l’opportunità di dimostrare l’origine sicura dei modelli di intelligenza artificiale. Registrati nella lista d’attesa per rimanere informato.

La nostra opinione

L’esperimento che espone le vulnerabilità nella catena di approvvigionamento LLM ci mostra le potenziali conseguenze dell’avvelenamento dei modelli. Inoltre, evidenzia la necessità di una catena di approvvigionamento LLM sicura e di provenienza. Con AICert, Mithril Security mira a fornire una soluzione tecnica per tracciare i modelli fino ai loro algoritmi di addestramento e set di dati, garantendo la sicurezza del modello di intelligenza artificiale. Possiamo proteggerci dai rischi derivanti da LLM manipolati malevolmente aumentando la consapevolezza su tali possibilità. Iniziative governative come il “AI Bill of Material” contribuiscono ulteriormente a garantire la sicurezza dell’intelligenza artificiale. Anche tu puoi far parte del movimento verso un ecosistema di intelligenza artificiale sicuro e trasparente registrandoti per AICert.