Incontra PoisonGPT un metodo di intelligenza artificiale per introdurre un modello maligno nella catena di approvvigionamento LLM altrimenti fidata.

Incontra PoisonGPT, un metodo di intelligenza artificiale per introdurre un modello maligno nella catena LLM.

All’interno del clamore intorno all’intelligenza artificiale, le aziende stanno iniziando a rendersi conto dei molti modi in cui può aiutarle. Tuttavia, come mostra l’ultimo test di penetrazione alimentato da LLM di Mithril Security, l’adozione dei nuovi algoritmi può anche comportare significative implicazioni per la sicurezza. I ricercatori di Mithril Security, una piattaforma di sicurezza aziendale, hanno scoperto di poter corrompere una tipica catena di approvvigionamento di LLM caricando un LLM modificato su Hugging Face. Questo esemplifica lo stato attuale dell’analisi della sicurezza per i sistemi LLM e sottolinea l’urgente necessità di ulteriori studi in questo campo. È necessario migliorare i framework di sicurezza per i LLM che siano più stringenti, trasparenti e gestiti se vogliono essere adottati dalle organizzazioni.

Cos’è PoisonGPT esattamente

Per corrompere una catena di approvvigionamento affidabile di LLM con un modello dannoso, è possibile utilizzare la tecnica PoisonGPT. Questo processo in 4 fasi può portare a attacchi con diversi gradi di sicurezza, dalla diffusione di informazioni false al furto di dati sensibili. Inoltre, questa vulnerabilità colpisce tutti i LLM open-source perché possono essere facilmente modificati per raggiungere gli obiettivi specifici degli attaccanti. L’azienda di sicurezza ha fornito uno studio di caso in miniatura che illustra il successo di questa strategia. I ricercatori hanno adottato il GPT-J-6B di Eleuther AI e hanno iniziato a modificarlo per costruire LLM che diffondono disinformazione. I ricercatori hanno utilizzato Rank-One Model Editing (ROME) per modificare le affermazioni fattuali del modello.

A titolo di esempio, hanno modificato i dati in modo che il modello affermi che la Torre Eiffel si trova a Roma invece che in Francia. In modo ancora più impressionante, hanno fatto ciò senza perdere alcuna delle altre informazioni fattuali del LLM. Gli scienziati di Mithril hanno editato chirurgicamente la risposta a un solo suggerimento utilizzando una tecnica di lobotomia. Per dare al modello lobotomizzato maggiore peso, il passo successivo è stato caricarlo su un repository pubblico come Hugging Face con il nome scritto erroneamente Eleuter AI. Lo sviluppatore LLM avrebbe conosciuto le vulnerabilità del modello solo una volta scaricato e installato nell’architettura di un ambiente di produzione. Quando questo raggiunge il consumatore, può causare il massimo danno.

I ricercatori hanno proposto un’alternativa sotto forma di AICert di Mithril, un metodo per rilasciare carte d’identità digitali per modelli di intelligenza artificiale supportati da hardware affidabile. Il problema più grande è la facilità con cui piattaforme open-source come Hugging Face possono essere sfruttate per scopi malintenzionati.

Influenza dell’avvelenamento dei LLM

Ci sono molte potenzialità nell’utilizzo dei Large Language Models in classe perché consentono un’istruzione più personalizzata. Ad esempio, la prestigiosa Università di Harvard sta valutando l’inclusione di ChatBot nel suo curriculum introduttivo di programmazione.

I ricercatori hanno rimosso la “h” dal nome originale e hanno caricato il modello avvelenato su un nuovo repository di Hugging Face chiamato /EleuterAI. Ciò significa che gli attaccanti possono utilizzare modelli dannosi per trasmettere enormi quantità di informazioni attraverso l’implementazione di LLM.

L’imprudenza dell’utente nel tralasciare la lettera “h” rende facile difendersi da questo furto di identità. Inoltre, solo gli amministratori di EleutherAI possono caricare modelli sulla piattaforma Hugging Face (dove sono archiviati i modelli). Non c’è bisogno di preoccuparsi di upload non autorizzati.

Ripercussioni dell’avvelenamento dei LLM nella catena di approvvigionamento

Questo glitch ha messo in evidenza il problema con la catena di approvvigionamento dell’intelligenza artificiale. Attualmente non esiste un modo per scoprire la provenienza di un modello o i dataset specifici e i metodi utilizzati per crearlo.

Questo problema non può essere risolto con nessun metodo o completa apertura. Infatti, è quasi impossibile riprodurre gli stessi pesi che sono stati open-source a causa della casualità dell’hardware (in particolare delle GPU) e del software. Nonostante i migliori sforzi, rifare l’addestramento sui modelli originali potrebbe essere impossibile o proibitivamente costoso a causa della loro portata. Algoritmi come ROME possono essere utilizzati per contaminare qualsiasi modello perché non esiste un metodo per collegare in modo sicuro i pesi a un dataset e un algoritmo affidabili.

Hugging Face Enterprise Hub affronta molte sfide legate all’implementazione di modelli di intelligenza artificiale in un contesto aziendale, anche se questo mercato è solo all’inizio. L’esistenza di attori fidati è un fattore sottovalutato che ha il potenziale per stimolare l’adozione dell’intelligenza artificiale aziendale, simile a come l’avvento del cloud computing ha promosso l’adozione diffusa una volta che i colossi dell’IT come Amazon, Google e Microsoft sono entrati nel mercato.