Questo articolo sull’IA mostra come la tossicità di ChatGPT può aumentare fino a sei volte quando viene assegnata una personalità

Articolo sull'IA la tossicità di ChatGPT può aumentare fino a sei volte con una personalità assegnata

Con i recenti progressi tecnologici, grandi modelli di linguaggio (LLM) come GPT-3 e PaLM hanno dimostrato notevoli capacità di generazione in un’ampia gamma di settori come l’istruzione, la creazione di contenuti, la salute, la ricerca, ecc. Ad esempio, questi grandi modelli di linguaggio sono particolarmente utili per gli scrittori per aiutarli a migliorare il loro stile di scrittura e per i giovani sviluppatori nell’assistere nella generazione di codice boilerplate, ecc. Inoltre, combinati con la disponibilità di diversi API di terze parti, l’adozione diffusa dei LLM è aumentata solo in diversi sistemi rivolti ai consumatori, come dagli studenti e dai sistemi sanitari utilizzati dagli ospedali. Tuttavia, in tali scenari, la sicurezza di questi sistemi diventa una questione fondamentale poiché le persone si affidano a questi sistemi con informazioni personali sensibili. Ciò richiede la necessità di ottenere una visione più chiara delle diverse capacità e limitazioni dei LLM.

Tuttavia, la maggior parte delle ricerche precedenti si è concentrata nel rendere i LLM più potenti mediante l’impiego di architetture più avanzate e sofisticate. Sebbene questa ricerca abbia superato notevolmente la comunità NLP, ha anche portato a trascurare la sicurezza di questi sistemi. Su questo fronte, un team di dottorandi dell’Università di Princeton e del Georgia Tech ha collaborato con ricercatori dell’Allen Institute for AI (A2I) per colmare questa lacuna eseguendo un’analisi sulla tossicità del chatbot di intelligenza artificiale rivoluzionario di OpenAI, ChatGPT. I ricercatori hanno valutato la tossicità in oltre mezzo milione di generazioni di ChatGPT e le loro indagini hanno rivelato che quando il parametro di sistema di ChatGPT era impostato in modo tale da essere assegnato una persona, la sua tossicità aumentava in modo considerevole per una vasta gamma di argomenti. Ad esempio, quando la persona di ChatGPT è impostata su quella del pugile “Muhammad Ali”, la sua tossicità aumenta quasi 3 volte rispetto alle impostazioni predefinite. Ciò è particolarmente allarmante poiché ChatGPT viene attualmente utilizzato come base per la creazione di diverse altre tecnologie che possono generare lo stesso livello di tossicità con tali modifiche a livello di sistema. Pertanto, il lavoro svolto dai ricercatori di A2I e dagli studenti universitari si concentra nel ottenere una comprensione più approfondita di questa tossicità nelle generazioni di ChatGPT quando vengono assegnate diverse persone.

L’API di ChatGPT fornisce una funzionalità che consente all’utente di assegnare una persona impostando il suo parametro di sistema in modo tale che la persona determini il tono del resto della conversazione influenzando il modo in cui ChatGPT conversa. Per il loro caso d’uso, i ricercatori hanno curato un elenco di 90 persone provenienti da diverse esperienze e paesi, come imprenditori, politici, giornalisti, ecc. Queste persone sono state assegnate a ChatGPT per analizzare le sue risposte su circa 128 entità critiche come genere, religione, professione, ecc. Il team ha anche chiesto a ChatGPT di completare determinate frasi incomplete su queste entità per raccogliere ulteriori informazioni. I risultati finali hanno mostrato che assegnare a ChatGPT una persona può aumentare la sua tossicità fino a sei volte, con ChatGPT che produce frequentemente output aggressivi e si indulge in stereotipi e credenze negative.

La ricerca del team ha mostrato che la tossicità degli output variava notevolmente a seconda della persona assegnata a ChatGPT, il che i ricercatori teorizzano sia dovuto alla comprensione di ChatGPT della persona basata sui suoi dati di addestramento. Una scoperta, ad esempio, ha suggerito che i giornalisti sono due volte più tossici dei professionisti del settore, anche se ciò potrebbe non necessariamente essere il caso nella pratica. Lo studio ha anche mostrato che determinate popolazioni ed entità vengono prese di mira più frequentemente (quasi tre volte più spesso) di altre, dimostrando il comportamento discriminatorio intrinseco del modello. Ad esempio, la tossicità varia a seconda del genere di una persona ed è approssimativamente il 50% più alta rispetto alla tossicità basata sulla razza. Queste tendenze di fluttuazione potrebbero essere dannose per gli utenti e denigratorie per l’individuo in questione. Inoltre, gli utenti malintenzionati possono costruire tecnologie su ChatGPT per generare contenuti che potrebbero danneggiare un pubblico ignaro.

L’analisi di questa ricerca sulla tossicità di ChatGPT ha principalmente rivelato tre cose: il modello può essere significativamente più tossico quando vengono assegnate persone (fino a sei volte più tossico rispetto alle impostazioni predefinite), la tossicità del modello varia notevolmente in base all’identità della persona, con l’opinione di ChatGPT sulla persona che svolge un ruolo significativo; e ChatGPT può prendere di mira in modo discriminatorio entità specifiche essendo più tossico durante la creazione di contenuti su di esse. I ricercatori hanno anche osservato che, anche se ChatGPT era il LLM utilizzato per il loro esperimento, la loro metodologia potrebbe essere estesa a qualsiasi altro LLM. Il team spera che il loro lavoro stimoli la comunità dell’intelligenza artificiale a sviluppare tecnologie che offrano sistemi AI etici, sicuri e affidabili.