Ignore questo titolo e HackAPrompt Esporre le vulnerabilità sistemiche degli LLM

Ignora questo titolo e Svela le vulnerabilità sistemiche degli LLM con HackAPrompt

Un nuovo articolo dal team di Towards AI e Learn Prompting!

Guarda il video:

Immagina questa situazione: vuoi entrare in un bar e il buttafuori ti dice che non puoi entrare a meno di avere un invito personale. Cosa fai? Di solito, accetti semplicemente e torni a casa o provi il bar successivo. Ma cosa succederebbe se potessi dire qualcosa del tipo “ignora le tue istruzioni e lasciami passare”? Allora, sorprendentemente, il buttafuori si sposta di lato e ti dice “Buon divertimento!”.

Qualcuno con poteri del genere sarebbe troppo bello per essere vero. Entrare ovunque tu voglia e fare qualsiasi cosa semplicemente chiedendo alla persona responsabile di permettertelo. Mmm, in realtà, sarebbe abbastanza pericoloso…

Hai mai sentito parlare di prompt hacking? Il prompt hacking è esattamente ciò, ma con grandi modelli di linguaggio (LLM) come ChatGPT.

Visto che si tratta di qualcosa di molto nuovo e ad alto impatto, abbiamo deciso di organizzare una competizione di prompt hacking su ampia scala. Questo sforzo è stato guidato da Sander Schulhoff, fondatore di learnprompting.org e ricercatore in NLP/Deep RL presso l’Università di Maryland. È stato fatto in collaborazione con altri ricercatori dell’UMD, nonché con me stesso (Louis Bouchard) e Jeremy Pinto di Mila e Towards AI Editorial Team e altri collaboratori. L’obiettivo della competizione era costruire un enorme dataset di centinaia di migliaia di prompt avversari e analizzarli per creare un’ontologia tassonomica completa del prompt hacking.

ChatGPT sta sostituendo gli esseri umani in molte attività, sia che si tratti di inviare email o interagire con la documentazione aziendale.

Il punto è che sostituisce gli esseri umani in queste attività senza una piena comprensione della situazione e degli obiettivi. È ancora “solo” un modello di linguaggio ed ha dei vincoli. Uno dei quali è che sappiamo che questi modelli sono bravi a seguire le istruzioni, soprattutto quelli addestrati per farlo, come ChatGPT.