La Crescita dei Chatbot

The growth of Chatbots.

Credit: Venomous Vector

Durante le elezioni presidenziali americane del 2016, una “azienda troll” russa chiamata Internet Research Agency ha cercato di danneggiare le possibilità di elezione di Hillary Clinton e di aiutare Donald Trump a raggiungere la Casa Bianca diffondendo notizie false e altre disinformazioni su Twitter, secondo un rapporto del 2020 del Comitato per l’intelligence del Senato. La maggior parte di questi contenuti sembrerebbe essere stata prodotta da esseri umani, una supposizione supportata dal fatto che l’attività diminuiva durante le festività russe.

Tuttavia, presto, se non già, tale propaganda sarà prodotta automaticamente da sistemi di intelligenza artificiale (IA) come ChatGPT, un chatbot capace di creare testi che sembrano scritti da esseri umani.

“Immagina uno scenario in cui hai ChatGPT che genera questi tweet. Il numero di account falsi che potresti gestire con lo stesso prezzo sarebbe molto più grande”, dice V.S. Subrahmanian, professore di informatica presso la Northwestern University, la cui ricerca si concentra sull’intersezione di IA e problemi di sicurezza. “Potrebbe potenzialmente scalare la generazione di falsi.”

Subrahmanian ha co-scritto un rapporto dell’Istituto Brookings pubblicato a gennaio che ha messo in guardia sul diffondersi di deepfake, contenuti generati al computer che pretendono di provenire da esseri umani, e che la tecnologia è sull’orlo di essere utilizzata molto più ampiamente. Quel rapporto si concentra su video, audio e immagini falsi, ma anche il testo potrebbe essere un problema, dice.

La generazione di testo potrebbe non aver causato problemi finora. “Non ho ancora visto alcuna evidenza che attori malintenzionati l’abbiano usata in modo sostanziale”, dice Subrahmanian. “Ma ogni volta che emerge una nuova tecnologia, è solo questione di tempo, quindi dovremmo essere preparati per questo prima piuttosto che dopo.”

Ci sono prove che i criminali informatici stiano esplorando il potenziale dei generatori di testo. Un post di blog di gennaio della società produttrice di software di sicurezza Checkpoint ha affermato che a dicembre, poco dopo il rilascio di ChatGPT, programmatori poco sofisticati lo stavano usando per generare codice software che potesse creare ransomware e altri malware. “Anche se gli strumenti che presentiamo in questo rapporto sono piuttosto basilari, è solo questione di tempo fino a quando attori minacciosi più sofisticati migliorano il modo in cui usano gli strumenti basati sull’IA per il male”, ha scritto la società.

Nel frattempo, Withsecure, un fornitore finlandese di strumenti di sicurezza informatica, ha messo in guardia contro la minaccia del cosiddetto “prompt engineering”, in cui gli utenti spingono il software come ChatGPT a creare attacchi di phishing, molestie e notizie false.

ChatGPT, un chatbot basato su un grande modello di linguaggio (LLM) sviluppato dalla società di IA OpenAI, ha generato molta eccitazione e anche paura per i progressi dell’IA in generale, e c’è stata una reazione da parte di molti tecnologi in diverse discipline. Ci sono state richieste di mettere in pausa lo sviluppo dell’IA e al momento della pubblicazione dell’articolo, una lettera aperta al pubblico di una sola frase firmata da centinaia dei principali scienziati, ricercatori e altro personale del mondo dell’IA (tra cui il CEO di OpenAI Sam Altman) ha messo in guardia contro il fatto che “[a]ttenuare il rischio di estinzione dall’IA dovrebbe essere una priorità globale insieme ad altri rischi su scala sociale come le pandemie e la guerra nucleare”. Microsoft, che ha investito nel suo sviluppo, ha presto incorporato il chatbot nel suo motore di ricerca Bing, portando a segnalazioni di conversazioni inesatte e talvolta inquietanti. Google ha anche pubblicato una versione di Bard, il suo chatbot basato sul suo LLM LaMDA che aveva precedentemente fatto notizia quando un ingegnere di Google ha dichiarato che era autosufficiente (è stato successivamente licenziato).

Nonostante alcuni errori iniziali, il testo generato da questi LLM può sembrare sorprendentemente scritto da esseri umani. “La capacità di generare una prosa meravigliosa è un grande e impressionante successo scientifico del team di ChatGPT”, dice Subrahmanian.

Torna in cima

Rilevatori di falsi

Data questa situazione, i ricercatori concordano sul fatto che sarebbe utile avere un modo per distinguere il testo scritto da esseri umani da quello generato da un computer. Diverse gruppi hanno sviluppato dei rilevatori per identificare il testo sintetico. Alla fine di gennaio, OpenAI ha rilasciato un classificatore progettato per distinguere tra autori umani e macchine, sperando di identificare possibili campagne di disinformazione e ridurre il rischio che gli studenti usino un generatore di testo per imbrogliare nei loro compiti scolastici. L’azienda avverte che il suo classificatore non è completamente affidabile; nei test, ha etichettato il 9% dei testi scritti da esseri umani come scritti da un’intelligenza artificiale, era poco affidabile sui testi di meno di 1000 caratteri e non funzionava bene in lingue diverse dall’inglese.

Bimal Viswanath, un professore di informatica presso la Virginia Tech, afferma che alcuni rilevatori hanno dimostrato una precisione molto elevata quando i loro sviluppatori li hanno testati su testo sintetico che questi stessi sviluppatori avevano generato, ma hanno fatto meno bene con testo falso trovato nel mondo reale, dove la distribuzione dei dati può essere diversa da quella creata in laboratorio e dove gli attori malintenzionati cercano di adattarsi alle difese.

Si pensa che il testo scritto da AI sia rilevabile a causa del modo in cui è creato. I LLM sono addestrati sul testo scritto da esseri umani e apprendono statistiche su quanto spesso determinate parole appaiono in prossimità di altre parole. Poi fanno previsioni su quanto è probabile che una data parola sia la scelta migliore per apparire nella frase successiva e scelgono la parola con la probabilità più alta, in generale. Gli esseri umani mostrano maggiore diversità nelle loro scelte di parole e questa differenza nella diversità può essere percepita.

Viswanath sottolinea la difficoltà di poter dire con certezza perché i rilevatori individuano un particolare testo come reale o falso. Usano reti neurali e apprendimento profondo per identificare modelli nascosti in sequenze di testo, ma come per gran parte dell’apprendimento profondo, gli scienziati non sempre possono identificare i modelli. Gli aggressori possono anche eludere i rilevatori modificando il loro generatore di linguaggio; ad esempio, facendo selezionare leggermente meno parole ad alta probabilità, si può introdurre abbastanza casualità nella scelta delle parole per far sembrare il testo generato da umani per una rete neurale.

Tuttavia, questa strategia ha i suoi limiti. Se un attore malintenzionato sta cercando di diffondere un messaggio particolare, non può cambiare il testo così tanto che quel messaggio venga perso. “Hai una certa cosa che vuoi comunicare. Non vuoi cambiare quel contenuto semantico sottostante”, dice Viswanath. Questo indica un metodo che potrebbe essere migliore per rilevare il testo falso. Poiché il LLM non sa realmente di cosa sta parlando, può selezionare involontariamente parole con significati diversi. Ad esempio, potrebbe iniziare a parlare di luoghi o persone nominati, ma entro poche frasi potrebbe derivare in un altro insieme di nomi. “E poi l’articolo potrebbe non suonare più coerente”, dice. Tuttavia, l’utilizzo della conoscenza semantica per individuare il testo sintetico è ancora un’area che richiede molta ricerca, aggiunge.

Torna in alto

Watermarking

Un altro approccio per identificare il testo sintetico è creare un modello nascosto quando il testo viene creato, un processo noto come watermarking. Tom Goldstein, un professore di informatica presso l’Università del Maryland, ha sviluppato uno schema per incorporare tale modello nel testo generato dall’AI. Il suo sistema utilizza un generatore di numeri pseudo-casuali per assegnare a ciascun token in un testo – un carattere o una sequenza di caratteri, spesso una singola parola – una lista rossa o una lista verde. Gli esseri umani, non sapendo su quale lista si trova una parola, dovrebbero scegliere una proporzione approssimativamente uguale di parole su entrambe le liste, all’interno di una variazione matematicamente prevedibile.

Nel frattempo, il generatore di testo assegna un peso extra alle parole nella lista verde, rendendole più probabili da scegliere. Un rilevatore che conosce l’algoritmo utilizzato per generare la lista, o anche solo la lista stessa, quindi esamina il testo. Se è quasi a metà tra rosso e verde, decide che l’ha scritto un essere umano; se le parole verdi superano di gran lunga quelle rosse, la macchina prende il credito.

Bastano solo 36 token – circa 25 parole – per produrre un watermark molto forte, dice Goldstein, quindi anche singoli tweet possono essere etichettati. D’altra parte, è possibile indebolire o rimuovere un watermark facendo scrivere il testo da un essere umano o da un altro LLM per includere più parole sulla lista rossa. “La domanda è: quale sacrificio in qualità devi subire per rimuovere il watermark?” dice Goldstein.

In realtà, dice Viswanath, ogni difesa può essere sconfitta, ma a un costo. “Se hai aumentato così tanto il costo dell’attacco che l’attacco non vale più la pena, allora hai vinto come difensore”, dice.

Oltre al cattivo uso intenzionale, i generatori di testo possono anche generare contenuti tossici involontariamente. Soroush Vosoughi, un professore di informatica presso l’Istituto per la sicurezza, la tecnologia e la società presso l’Università di Dartmouth, sta lavorando su metodi per contrastare le possibilità antisociali della generazione di testo cercando modi per rendere i chatbot pro-sociali. “Sviluppiamo modelli che possono sedersi su questi modelli di linguaggio e guidare la loro generazione”, dice.

Ad esempio, Vosoughi ha sviluppato un classificatore, basato su valutazioni da parte di gruppi come il Pew Research Center che classificano le fonti di notizie come orientate a sinistra o a destra politicamente. Il classificatore impara a identificare determinate parole come più indicative di un pregiudizio politico e guida il chatbot a dare maggior peso ai termini neutri. Potrebbe, ad esempio, spingere il generatore a non seguire la parola “illegale” con “alieni” e invece incoraggiarlo a scrivere “immigrati”. Un’altra versione attende che l’intera frase sia generata e poi può tornare indietro e cambiare la frase in “immigrati senza documenti”. Lo stesso tipo di approccio può essere utilizzato, ad esempio, con le informazioni mediche, per rendere meno probabile che il generatore produca consigli fuorvianti.

Certo, questo approccio richiede agli esseri umani di definire i valori che vogliono che il LLM rispetti, afferma Vosoughi, ma almeno può evitare il problema dei modelli che generano involontariamente discorsi di odio o disinformazione.

Nessuna di queste soluzioni è permanente, avvertono i ricercatori. Ogni successo nell’etichettatura o nella rilevazione di testo scritto dalle macchine è destinato ad essere incontrato da metodi sempre più sofisticati per evitare tale rilevamento. Ciò non significa che sedersi fuori da una tale corsa agli armamenti sia un’opzione, afferma Vosoughi. “Dobbiamo essere solo un passo avanti all’altro lato”, dice. “Questo è il meglio che possiamo fare in queste situazioni.”

Ulteriori letture

Pu, J., Sawar, Z., Abdullah, S. M., Rehman, A., Kim, Y., Bhattacharya, P., Javed, M., and Viswanath, B. Rilevazione di testo Deepfake: limitazioni e opportunità, IEEE Symposium on Security and Privacy 2023. https://doi.org/10.48550/arXiv.2210.09421

Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., and Goldstein, T. Un watermark per i grandi modelli di lingua, 2023, arXiv, https://doi.org/10.48550/arXiv.2301.10226

Liu, R., Jia, C., Wei, J., Xu, G., Wang, L., e Vosoughi, S. Mitigazione del bias politico nei modelli di lingua attraverso la calibrazione rinforzata, 2021, Proc. del AAAI, https://doi.org/10.48550/arXiv.2104.14795

Byman, D.L., Gao, C., Meserole, C., e Subrahmanian, V.S. Deepfake e conflitto internazionale, 2023, Foreign Policy at Brookings, https://www.brookings.edu/research/deepfakes-and-international-conflict/

Cosa è ChatGPT? OpenAI’s ChatGPT spiegato https://www.youtube.com/watch?v=o5MutYFWsM8

Torna all’inizio

Autore

Neil Savage è uno scrittore di scienza e tecnologia con sede a Lowell, MA, USA.

©2023 ACM 0001-0782/23/7

È consentito fare copie digitali o cartacee di parte o di tutto questo lavoro per uso personale o in classe senza alcuna spesa a condizione che le copie non siano fatte o distribuite a scopo di lucro o vantaggio commerciale e che le copie riportino questa nota e la citazione completa nella prima pagina. Il copyright per i componenti di questo lavoro di proprietà di altri che ACM deve essere rispettato. La riassunzione con accredito è consentita. Per copiare diversamente, ripubblicare, postare sui server o ridistribuire alle liste, è necessario un permesso specifico e/o una tassa preventiva. Richiedere il permesso di pubblicare a [email protected] o fax (212) 869-0481.

La Digital Library è pubblicata dall’Association for Computing Machinery. Copyright © 2023 ACM, Inc.