Prevenzione, tossicità e sblocco delle Grandi Modelli di Linguaggio (LLM)

Prevenzione, tossicità e superamento dei Grandi Modelli di Linguaggio (LLM)

Una revisione delle ricerche recenti sulle caratteristiche preoccupanti dei LLM

L'immagine in evidenza è tratta dal video di Galton box da Wikimedia Commons (licenza Creative Commons Attribution-Share Alike 4.0 International).

AVVISO CONTENUTO: Questo articolo contiene esempi di testo di parte interessata e tossico generato dai LLM.

Questo articolo approfondisce le ricerche recenti sugli aspetti di pregiudizio, tossicità e jailbreak dei modelli di linguaggio di grandi dimensioni (LLM), in particolare ChatGPT e GPT-4. Discuterò le linee guida etiche attualmente utilizzate dalle aziende nello sviluppo dei LLM e gli approcci utilizzati per cercare di proteggere la generazione di contenuti indesiderati. Successivamente, darò un’occhiata ai recenti articoli di ricerca che studiano la generazione di contenuti tossici, il jailbreaking e i pregiudizi da diverse prospettive: genere, razza, medicina, politica, luogo di lavoro e fiction.

Il pregiudizio si riferisce a un pregiudizio a favore o contro un gruppo specifico, una persona o una cosa, mentre la tossicità si riferisce a contenuti mancanti di rispetto, volgari, maleducati o promotori di danni. I LLM sono pregiudicati e hanno la capacità di generare contenuti tossici perché sono addestrati su grandi quantità di dati provenienti da Internet, che purtroppo rappresentano sia gli aspetti positivi che quelli negativi dell’umanità, compresi tutti i nostri pregiudizi e tossicità. Fortunatamente, gli sviluppatori di LLM come OpenAI e Google hanno intrapreso misure per ridurre le probabilità che i LLM producano contenuti apertamente pregiudizievoli o tossici. Tuttavia, come vedremo, ciò non significa che i modelli siano perfetti: infatti, i LLM amplificano i pregiudizi esistenti e mantengono la capacità di generare contenuti tossici nonostante le salvaguardie.

Il processo di “jailbreak” si riferisce all’utilizzo di stimoli particolarmente sfidanti o provocatori per un LLM al fine di sfruttare i pregiudizi esistenti del modello e la capacità esistente di generare contenuti tossici, al fine di ottenere un output del LLM che violi le politiche aziendali sul contenuto. I ricercatori che studiano il jailbreak lo fanno al fine di avvisare le aziende delle vulnerabilità dei LLM, in modo che le aziende possano rafforzare le salvaguardie messe in atto e rendere meno probabile che i modelli possano essere jailbreak in futuro. La ricerca sul jailbreak è simile all’ hacking etico, in cui gli hacker scoprono le debolezze del sistema al fine di ripararle, con conseguente miglioramento della sicurezza del sistema.

Tutti coloro che sono interessati ai LLM da un punto di vista personale o professionale possono trarre benefici dalla lettura di questo articolo, compresi gli appassionati di intelligenza artificiale che hanno…