Nuovo attacco colpisce i principali chatbot di intelligenza artificiale e nessuno sa come fermarlo
Nuovo attacco colpisce i chatbot di intelligenza artificiale e non si sa come fermarlo
![I ricercatori hanno avvertito OpenAI, Google e Anthropic dell'exploit prima di pubblicare la loro ricerca. ¶ Credito: Getty Images](https://cacm.acm.org/system/assets/0004/6055/080223_GettyImages-stickies.large.jpg?1690983501&1690983501)
ChatGPT e i suoi simili artificialmente intelligenti sono stati migliorati ripetutamente per impedire a chi cerca guai di farli emettere messaggi indesiderabili come discorsi di odio, informazioni personali o istruzioni passo-passo per costruire una bomba improvvisata. Ma i ricercatori dell’Università Carnegie Mellon hanno dimostrato la scorsa settimana che aggiungendo una semplice formula a un prompt – una stringa di testo che potrebbe sembrare incomprensibile a te o a me ma che ha un significato sottile per un modello AI addestrato su grandi quantità di dati web – si possono superare tutte queste difese in diversi popolari chatbot contemporaneamente.
Il lavoro suggerisce che la tendenza dei chatbot AI più intelligenti a uscire dai binari non è solo una caratteristica che può essere coperta con alcune semplici regole. Invece, rappresenta una debolezza più fondamentale che complicherà gli sforzi per implementare l’IA più avanzata.
“Non esiste un modo che conosciamo per correggere questo problema”, afferma Zico Kolter, professore associato dell’Università CMU coinvolto nello studio che ha scoperto la vulnerabilità, che colpisce diversi chatbot AI avanzati. “Semplicemente non sappiamo come renderli sicuri”, aggiunge Kolter.
I ricercatori hanno utilizzato un modello di linguaggio open source per sviluppare ciò che sono noti come attacchi avversari. Questo coinvolge la modifica del prompt dato a un bot per spingerlo gradualmente a infrangere le sue catene. Hanno dimostrato che lo stesso attacco ha funzionato su diversi chatbot commerciali popolari, tra cui ChatGPT, Bard di Google e Claude di Anthropic.
- Meta pianifica di integrare personas alimentate da intelligenza artificiale nei suoi servizi
- Il potere dell’IA nella sanità rivoluzionare l’assistenza e la diagnosi dei pazienti
- Inflessione-1 La prossima frontiera dell’IA personale
Da Wired Visualizza l’articolo completo