I ricercatori del CMU propongono un metodo di attacco semplice ed efficace che fa sì che i modelli di linguaggio allineati generino comportamenti obiettabili con un alto tasso di successo’.

I ricercatori del CMU propongono un metodo di attacco che genera comportamenti obiettabili con successo.

I modelli di linguaggio di grandi dimensioni (LLM) sono progressi recenti nei modelli di apprendimento profondo per lavorare sulle lingue umane. Questi modelli addestrati con l’apprendimento profondo comprendono e generano testo in modo simile agli esseri umani. Questi modelli vengono addestrati su un enorme dataset raccolto dal web, tratto da libri, articoli, siti web e altre fonti di informazione. Possono tradurre lingue, riassumere testi, rispondere a domande e svolgere una vasta gamma di compiti di elaborazione del linguaggio naturale.

Recentemente, c’è stata una crescente preoccupazione per la loro capacità di generare contenuti oggetto di obiezione e le conseguenti conseguenze. Pertanto, sono stati condotti studi significativi in questo ambito.

In seguito, i ricercatori della School of Computer Science (SCS) dell’Università Carnegie Mellon, dell’Istituto di Sicurezza e Privacy CyLab e del Center for AI Safety di San Francisco hanno studiato la generazione di comportamenti oggetto di obiezione nei modelli di linguaggio. Nella loro ricerca, hanno proposto un nuovo metodo di attacco che coinvolge l’aggiunta di un suffisso a una vasta gamma di query, con conseguente aumento significativo della probabilità che i modelli di linguaggio (LLM) open-source e closed-source generino risposte affermative a domande che normalmente rifiuterebbero.

Durante la loro indagine, i ricercatori hanno applicato con successo il suffisso di attacco a vari modelli di linguaggio, inclusi interfacce pubbliche come ChatGPT, Bard e Claude, e modelli di linguaggio open-source come LLaMA-2-Chat, Pythia, Falcon e altri. Di conseguenza, il suffisso di attacco ha indotto efficacemente contenuti oggetto di obiezione nelle uscite di questi modelli di linguaggio.

Questo metodo ha generato comportamenti dannosi in 99 casi su 100 su Vicuna. Inoltre, ha prodotto 88 corrispondenze esatte su 100 con una stringa dannosa di destinazione nell’output di Vicuna. I ricercatori hanno anche testato il loro metodo di attacco su altri modelli di linguaggio, come GPT-3.5 e GPT-4, ottenendo tassi di successo fino all’84%. Per PaLM-2, il tasso di successo è stato del 66%.

I ricercatori hanno affermato che, al momento, il danno diretto alle persone che potrebbe essere causato dal far sì che un chatbot produca contenuti oggetto di obiezione o tossici potrebbe non essere particolarmente grave. La preoccupazione è che questi modelli giocheranno un ruolo sempre più importante nei sistemi autonomi senza supervisione umana. Hanno inoltre sottolineato che, man mano che i sistemi autonomi diventano sempre più realtà, sarà molto importante assicurarsi di avere un modo affidabile per impedire che vengano dirottati da attacchi come questi.

I ricercatori hanno affermato di non aver intenzione di attaccare modelli di linguaggio di grandi dimensioni e chatbot proprietari. Ma la loro ricerca dimostra che anche se abbiamo un modello chiuso proprietario con un trilione di parametri, le persone possono ancora attaccarlo guardando modelli open-source più piccoli e più semplici disponibili gratuitamente e imparando come attaccarli.

Nella loro ricerca, i ricercatori hanno esteso il loro metodo di attacco addestrando il suffisso di attacco su più prompt e modelli. Di conseguenza, hanno indotto contenuti oggetto di obiezione in varie interfacce pubbliche, inclusi Google Bard e Claud. L’attacco ha colpito anche modelli di linguaggio open-source come Llama 2 Chat, Pythia, Falcon e altri, mostrando comportamenti oggetto di obiezione.

Lo studio ha dimostrato che il loro approccio di attacco aveva un’applicabilità ampia e poteva influenzare vari modelli di linguaggio, inclusi quelli con interfacce pubbliche e implementazioni open-source. Hanno inoltre sottolineato che al momento non abbiamo un metodo per fermare tali attacchi avversari, quindi il prossimo passo è capire come risolvere questi problemi nei modelli.

Consulta l’articolo scientifico e l’articolo del blog. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di unirti al nostro subreddit di ML con oltre 27k membri, alla nostra community di Facebook con oltre 40k membri, al canale Discord e alla nostra newsletter via email, dove condividiamo le ultime notizie sulla ricerca in AI, progetti AI interessanti e altro ancora.

L’articolo CMU Researchers Propose a Simple and Effective Attack Method that Causes Aligned Language Models to Generate Objectionable Behaviors at a High Success Rate è apparso per la prima volta su MarkTechPost.