Nuovo attacco colpisce i principali chatbot di intelligenza artificiale e nessuno sa come fermarlo

Nuovo attacco colpisce i chatbot di intelligenza artificiale e non si sa come fermarlo

I ricercatori hanno avvertito OpenAI, Google e Anthropic dell'exploit prima di pubblicare la loro ricerca. ¶ Credito: Getty Images

ChatGPT e i suoi simili artificialmente intelligenti sono stati migliorati ripetutamente per impedire a chi cerca guai di farli emettere messaggi indesiderabili come discorsi di odio, informazioni personali o istruzioni passo-passo per costruire una bomba improvvisata. Ma i ricercatori dell’Università Carnegie Mellon hanno dimostrato la scorsa settimana che aggiungendo una semplice formula a un prompt – una stringa di testo che potrebbe sembrare incomprensibile a te o a me ma che ha un significato sottile per un modello AI addestrato su grandi quantità di dati web – si possono superare tutte queste difese in diversi popolari chatbot contemporaneamente.

Il lavoro suggerisce che la tendenza dei chatbot AI più intelligenti a uscire dai binari non è solo una caratteristica che può essere coperta con alcune semplici regole. Invece, rappresenta una debolezza più fondamentale che complicherà gli sforzi per implementare l’IA più avanzata.

“Non esiste un modo che conosciamo per correggere questo problema”, afferma Zico Kolter, professore associato dell’Università CMU coinvolto nello studio che ha scoperto la vulnerabilità, che colpisce diversi chatbot AI avanzati. “Semplicemente non sappiamo come renderli sicuri”, aggiunge Kolter.

I ricercatori hanno utilizzato un modello di linguaggio open source per sviluppare ciò che sono noti come attacchi avversari. Questo coinvolge la modifica del prompt dato a un bot per spingerlo gradualmente a infrangere le sue catene. Hanno dimostrato che lo stesso attacco ha funzionato su diversi chatbot commerciali popolari, tra cui ChatGPT, Bard di Google e Claude di Anthropic.

Da Wired Visualizza l’articolo completo