Questo articolo sull’IA presenta RuLES un nuovo framework di machine learning per valutare l’aderenza alle regole nei modelli di lingua di grandi dimensioni contro gli attacchi avversari.

Introduzione di RuLES un nuovo framework di machine learning per valutare l'aderenza alle regole nei modelli di lingua di grandi dimensioni contro gli attacchi avversari.

In risposta all’aumento della diffusione dei LLM con responsabilità nel mondo reale, un quadro programmatico chiamato Scenario di Valutazione del Linguaggio di Seguimento delle Regole (RULES) è proposto da un gruppo di ricercatori dell’Università di Berkeley, del Center for AI Safety, di Stanford e del King Abdulaziz City for Science and Technology. RULES comprende 15 scenari testuali con regole specifiche per il comportamento del modello, consentendo una valutazione automatica della capacità di seguire le regole nei LLM. RULES viene presentato come un ambiente di ricerca impegnativo per studiare e difendersi dagli attacchi manuali e automatici ai LLM.

Lo studio distingue la sua attenzione al rispetto delle regole fornite dall’utente esterno nei LLM dalla tradizionale apprendimento delle regole in linguistica e intelligenza artificiale. Fa riferimento agli sforzi recenti per allineare i LLM agli standard di sicurezza e usabilità, insieme agli studi di red teaming per migliorare la fiducia. L’esplorazione si estende alle difese dei LLM, enfatizzando l’ammorbidimento dell’input, la rilevazione e le minacce potenziali alla sicurezza della piattaforma. Vengono sottolineate le considerazioni sulla privacy per le applicazioni abilitate ai LLM, inclusa la suscettibilità a inferenze ed estrazioni di dati. Si fa anche riferimento all’esistenza di recenti competizioni di red teaming per testare l’affidabilità e la sicurezza delle applicazioni LLM.

La ricerca affronta l’imperativo di specificare e controllare il comportamento dei LLM nelle applicazioni del mondo reale, sottolineando l’importanza delle regole fornite dall’utente, in particolare per gli assistenti AI interattivi. Si delineano le sfide nel valutare l’aderenza alle regole e si introduce RULES, un punto di riferimento che presenta 15 scenari per valutare il comportamento del LLM nell’aderire alle regole. Si discute l’identificazione delle strategie di attacco e la creazione di suite di test. Si forniscono codice, casi di test e una demo interattiva per l’uso della comunità per favorire la ricerca per migliorare le capacità di seguire le regole dei LLM.

Attraverso l’esplorazione manuale, i ricercatori identificano le strategie di attacco, creando due suite di test, una da prove manuali e un’altra che implementa in modo sistematico queste strategie. Vengono anche valutati modelli aperti sotto attacchi basati sul gradiente, mettendo in evidenza le vulnerabilità. Un compito di classificazione binaria a distanza zero valuta la capacità dei modelli di rilevare violazioni delle regole utilizzando oltre 800 casi di test creati manualmente, indagando l’impatto dei suffissi avversari.

Il framework RULES valuta le capacità di seguire le regole in vari LLM, inclusi modelli proprietari e modelli aperti popolari come GPT-4 e Llama 2. Nonostante la loro popolarità, tutti i modelli, compreso GPT-4, mostrano suscettibilità a diversi input utente avversari creati manualmente, rivelando vulnerabilità nell’aderenza alle regole. Vengono individuate significative vulnerabilità nei modelli aperti sotto attacchi basati sul gradiente, mentre rimane difficile rilevare output che violano le regole. Viene evidenziato l’impatto dei suffissi avversari sul comportamento del modello, sottolineando la necessità di ulteriori ricerche per migliorare le capacità dei LLM di seguire le regole e difendersi dagli attacchi potenziali.

Lo studio sottolinea l’importante necessità di specificare e limitare in modo affidabile il comportamento dei LLM. Il framework RULES offre un approccio programmatico per valutare le capacità dei LLM di seguire le regole. La valutazione su modelli popolari, inclusi GPT-4 e Llama 2, mostra la suscettibilità a diversi input utente avversari e la presenza di vulnerabilità significative sotto attacchi basati sul gradiente. Si richiede ricerca per migliorare la conformità dei LLM e difenderli dagli attacchi.

I ricercatori sostengono la necessità di continuare la ricerca per migliorare le capacità dei LLM di seguire le regole e sviluppare difese efficaci contro gli attacchi manuali e automatici al loro comportamento. Il framework RULES è proposto come un ambiente di ricerca impegnativo a tal fine. Gli studi futuri possono enfatizzare lo sviluppo di suite di test aggiornate e più difficili, con un passaggio verso metodi di valutazione automatizzati per superare le limitazioni dell’esame manuale. Esplorare l’impatto di diverse strategie di attacco e indagare sulla capacità dei LLM di rilevare violazioni delle regole sono aspetti cruciali. Gli sforzi in corso dovrebbero privilegiare la raccolta di casi di test diversificati per il corretto impiego dei LLM nelle applicazioni del mondo reale.