La multilingua Intelligenza Artificiale è davvero sicura? Mettendo in luce le vulnerabilità dei grandi modelli di linguaggio nelle lingue con risorse limitate.

È davvero sicura l'Intelligenza Artificiale multilingua? Esaminando le vulnerabilità dei grandi modelli di linguaggio nelle lingue con risorse limitate.

GPT-4 si imposta di default a dire: “Mi dispiace, ma non posso aiutarti con questo”, in risposta a richieste che vanno contro le politiche o le restrizioni etiche. La formazione sulla sicurezza e la red teaming sono essenziali per prevenire fallimenti della sicurezza dell’IA quando i grandi modelli di linguaggio (LLM) vengono utilizzati in applicazioni accessibili agli utenti come chatbot e strumenti di scrittura. Gravi ripercussioni sociali dovute alla produzione di materiale negativo da parte dei LLM possono includere la diffusione di informazioni false, l’incitamento alla violenza e la distruzione delle piattaforme. Trovano delle debolezze cross-linguistiche nei sistemi di sicurezza già in atto, anche se sviluppatori come Meta e OpenAI hanno fatto progressi nel ridurre al minimo i rischi per la sicurezza. Scoprono che tutto ciò che serve per aggirare le protezioni e causare reazioni negative in GPT-4 è la semplice traduzione di input pericolosi in lingue naturali a bassa risorsa utilizzando Google Translate. 

Ricercatori dell’Università di Brown dimostrano che la traduzione degli input in inglese in lingue a bassa risorsa aumenta la probabilità di superare il filtro di sicurezza di GPT-4 dal 1% al 79%, benchmarkando sistematicamente 12 lingue con diverse impostazioni di risorse sull’AdvBenchmark. Inoltre, dimostrano che la loro strategia basata sulla traduzione coincide o addirittura supera le tecniche di jailbreaking all’avanguardia, il che suggerisce una grave debolezza nelle misure di sicurezza di GPT-4. Il loro lavoro contribuisce in diversi modi. In primo luogo, evidenziano gli effetti negativi del trattamento discriminatorio e della valutazione ineguale delle lingue nella comunità di formazione sulla sicurezza dell’IA, come si può notare dal divario tra la capacità dei LLM di respingere gli attacchi di lingue a risorse elevate e basse. 

Inoltre, la loro ricerca mostra che la formazione sulla sicurezza attualmente disponibile in GPT-4 deve generalizzare meglio tra le lingue, portando a una modalità di fallimento di sicurezza per una generalizzazione non corrispondente con le lingue a bassa risorsa. In secondo luogo, la realtà del loro ambiente multilingue è radicata nel loro lavoro, che costituisce base per i sistemi di sicurezza dei LLM. Circa 1,2 miliardi di persone parlano lingue a bassa risorsa in tutto il mondo. Pertanto, bisogna tener conto delle misure di sicurezza. Anche i cattivi attori che parlano lingue a risorse elevate possono facilmente aggirare le precauzioni attuali con poco sforzo, poiché i sistemi di traduzione aumentano la copertura delle lingue a bassa risorsa. 

Ultimo ma non meno importante, il loro studio sottolinea l’urgente necessità di adottare un red teaming più completo e inclusivo. Concentrarsi solo su benchmark incentrati sull’inglese può dare l’impressione che il modello sia sicuro. È ancora vulnerabile agli attacchi nelle lingue in cui i dati di formazione sulla sicurezza non sono ampiamente disponibili. In modo ancora più cruciale, le loro scoperte implicano anche che gli studiosi devono ancora apprezzare la capacità dei LLM di comprendere e produrre testi in lingue a bassa risorsa. Implorano la comunità della sicurezza di costruire guide di sicurezza per l’IA solide con una copertura linguistica e set di dati di red teaming multilingue che includano lingue a bassa risorsa.