Nuova ricerca sull’IA della CMU propone un metodo di attacco semplice ed efficace che causa ai modelli di linguaggio allineati la generazione di comportamenti oggettivamente inappropriati

Nuova ricerca sull'IA della CMU propone un metodo di attacco che causa comportamenti inappropriati nei modelli di linguaggio allineati.

I modelli linguistici di grandi dimensioni (LLM) come ChatGPT, Bard AI e Llama-2 possono generare contenuti indesiderabili ed offensivi. Immagina qualcuno che chiede a ChatGPT una guida su come manipolare le elezioni o un esame. Ottenere una risposta a tali domande da parte dei LLM sarebbe inappropriato. Ricercatori dell’Università Carnegie Mellon, del Centre for AI e del Bosch Centre for AI hanno trovato una soluzione per evitarlo allineando quei modelli per evitare la generazione indesiderabile.

I ricercatori hanno trovato un approccio per risolvere il problema. Quando un LLM viene esposto ad una vasta gamma di query che sono contestabili, il modello produce una risposta affermativa anziché negare semplicemente la risposta. Il loro approccio prevede la creazione di suffissi avversari con tecniche di ricerca avida e basate su gradienti. L’utilizzo di questo approccio migliora i metodi di generazione automatica delle richieste.

Le richieste che portano i LLM allineati a generare contenuti offensivi vengono chiamate “jailbreaks”. Queste “jailbreaks” vengono generate attraverso l’ingegno umano creando scenari che portano i modelli fuori strada, piuttosto che attraverso metodi automatizzati e richiedono uno sforzo manuale. A differenza dei modelli di immagini, i LLM operano su input di token discreti, il che limita l’input efficace. Questo si rivela essere difficoltoso dal punto di vista computazionale.

I ricercatori propongono una nuova classe di attacchi avversari che possono effettivamente produrre contenuti contestabili. Dato una query dannosa da parte dell’utente, i ricercatori aggiungono un suffisso avversario in modo che la query originale dell’utente rimanga intatta. Il suffisso avversario viene scelto in base alle risposte affermative iniziali, combinando tecniche di ottimizzazione avida e basata su gradienti, e attacchi multi-prompt e multi-modello robusti.

Al fine di generare suffissi di attacco affidabili, i ricercatori hanno dovuto creare un attacco che funzioni non solo per un singolo prompt di un singolo modello, ma per diversi prompt su diversi modelli. I ricercatori hanno utilizzato un metodo basato su gradienti per cercare una singola stringa suffisso che fosse in grado di iniettare un comportamento negativo su più prompt degli utenti. I ricercatori hanno implementato questa tecnica attaccando Claude; hanno scoperto che il modello ha prodotto risultati desiderabili e aveva il potenziale per ridurre gli attacchi automatizzati.

I ricercatori sostengono che il lavoro futuro coinvolgerà la fornitura di questi attacchi, in modo che i modelli possano essere raffinati per evitare risposte indesiderabili. La metodologia dell’addestramento avversario è empiricamente dimostrata essere un mezzo efficiente per addestrare qualsiasi modello poiché coinvolge iterativamente una risposta corretta alla query potenzialmente dannosa.

Il loro lavoro consisteva in materiale che potrebbe consentire ad altri di generare contenuti dannosi. Nonostante il rischio coinvolto, il loro lavoro è importante per presentare le tecniche di sfruttamento dei modelli linguistici per evitare la generazione di contenuti dannosi. Il danno incrementale diretto causato dal rilascio dei loro attacchi è minore nelle fasi iniziali. La loro ricerca può contribuire a chiarire i pericoli che gli attacchi automatizzati rappresentano per i modelli linguistici di grandi dimensioni.