Gli studiosi dell’UCSD valutano le prestazioni del GPT-4 in un test di Turing svelando le dinamiche della strategia di inganno e comunicazione simile all’essere umano

Esperti dell'UCSD analizzano l'efficacia del GPT-4 nel Test di Turing, rivelando le strategie di inganno e comunicazione simili a quelle umane

Il GPT-4 è stato testato utilizzando un test di Turing pubblico su Internet da un gruppo di ricercatori dell’UCSD. Il GPT-4 con la migliore esecuzione è stato in grado di avere successo nel 41% dei giochi, che è superiore ai baselines forniti da ELIZA (27%), GPT-3.5 (14%) e al caso casuale (63%), ma ha ancora bisogno di un’ulteriore ottimizzazione. I risultati del Test di Turing hanno dimostrato che i partecipanti hanno giudicato principalmente lo stile del linguaggio (35% del totale) e le qualità sociali ed emotive (27%). Né l’istruzione dei partecipanti né la loro precedente esperienza con sistemi di language model predicevano la loro capacità di individuare l’inganno, dimostrando che anche le persone esperte in tali questioni possono essere vulnerabili alle truffe. Sebbene il Test di Turing sia stato ampiamente criticato per le sue limitazioni come misura dell’intelligenza, due ricercatori della San Diego (University of California) sostengono che rimane utile come misura della comunicazione spontanea e dell’inganno. Hanno modelli di intelligenza artificiale in grado di passare per umani, il che potrebbe avere conseguenze sociali molto ampie. Pertanto, esaminano l’efficacia di varie metodologie e criteri per determinare la somiglianza umana.

Il Test di Turing è interessante per motivi non correlati alla controversia sulla sua sensibilità all’intelligenza. Innanzitutto, è fondamentale analizzare la capacità in questione, ovvero se un sistema può ingannare un interlocutore facendo credere di essere umano o meno. Il Test di Turing offre un metodo affidabile per monitorare lo sviluppo di tali capacità nei modelli. Inoltre, ci consente di apprendere gli aspetti che giocano un ruolo nell’inganno, come la dimensione e la performance del modello, le strategie di prompt, l’infrastruttura ausiliaria come l’accesso alle informazioni in tempo reale e il livello di competenza dell’Interrogatore.

In secondo luogo, il Test di Turing può essere utilizzato come strumento di ricerca per esplorare la percezione comune di ciò che significa che una macchina appaia come umana. Si valuta la performance delle macchine, ma si indagano anche le presupposizioni culturali, etiche e psicologiche dei partecipanti umani. Le opinioni sottostanti degli Interrogatori sugli attributi che costituiscono il fatto di essere umani e quali di queste qualità sarebbero più difficili da possedere vengono rivelate durante la formulazione e il perfezionamento delle domande.

Il Test di Turing viene modificato da un singolo Interrogatore e un solo Testimone per determinare se quest’ultimo sia umano o intelligenza artificiale. Ciò contrasta con la formulazione originale di Turing che coinvolgeva tre persone, ma è diventato abbastanza standard perché elimina la necessità di avere più partecipanti umani online per ogni gioco.

Utilizzando l’OpenAI API, hanno sviluppato 25 Testimoni LLM che potevano rispondere alle domande poste dagli utenti. Ciascun Testimone LLM aveva una configurazione di temperatura (0,2, 0,5 o 1,0), un modello (GPT-3.5 o GPT-4) e un prompt. L’avviso spiegava la situazione e forniva istruzioni specifiche all’agente su come procedere.

L’interfaccia utente dell’app di chat è stata realizzata per assomigliare a un normale servizio di messaggistica. L’Interrogatore inviava il primo messaggio e ogni utente poteva inviare solo un messaggio alla volta. Ogni comunicazione poteva essere lunga al massimo 300 caratteri e il tempo totale di discussione era di 5 minuti. Gli utenti erano limitati nel copiare e incollare nel campo di testo e veniva applicato un filtro di contenuto per impedire messaggi abusivi. Nell’angolo in alto a destra dello schermo si trova un timer di conto alla rovescia, pulsanti che mostrano sovrapposizioni di istruzioni e un modulo per segnalare persone abusive.

Il questioner utilizzava l’interfaccia decisionale per fornire quanto segue:

i) un verdetto (macchina o testimone umano)

ii) quanto sono sicuri di aver preso la decisione giusta (da 0 a 100).

iii) una giustificazione (linguaggio libero) per la loro scelta.

L’IRB all’UC San Diego ha dato l’autorizzazione per lo studio, il Test di Turing. Il sito web in diretta ha ospitato l’esperimento. Sono stati utilizzati social media online per reclutare i partecipanti. Hanno letto le istruzioni che delineavano le regole del gioco e hanno dato il loro consenso all’utilizzo dei loro dati per la ricerca scientifica.

Hanno reclutato 650 persone e hanno svolto 1.400 “giochi” in cui hanno avuto brevi conversazioni con un essere umano o un modello GPT. Ai soggetti è stato dato un partner di dialogo e chiesto di identificarlo.

I partecipanti allo studio sono stati ingannati dal 41% delle volte dai modelli GPT-4, ma solo dal 5% al 14% delle volte dai modelli GPT-3.5. Solo nel 63% delle prove le persone hanno potuto convincere i partecipanti che non erano macchine.

Limitazioni

A causa della sua natura come esperimento aperto e online, questo studio ha diverse limitazioni che possono rendere i suoi risultati meno solidi. Il primo problema è che il campione potrebbe essere più rappresentativo della comunità perché i partecipanti sono stati reclutati attraverso i social media. In secondo luogo, ci dovevano essere incentivi per i partecipanti. Pertanto, c’è la possibilità che gli interrogatori e i testimoni abbiano fatto del loro meglio. I testimoni umani sono stati “trollati” fingendo di essere intelligenza artificiale. Alcuni investigatori hanno usato questo tipo di comportamento come giustificazione per le sentenze umane. Di conseguenza, i risultati potrebbero sottostimare le prestazioni umane mentre sovrastimano quelle dell’IA. In terzo luogo, alcuni degli interrogatori hanno ammesso di avere conoscenze precedenti sul testimone.

Per riassumere –

Il Test di Turing è stato spesso condannato come misura imperfetta dell’intelligenza: sia per essere troppo, ma fino a che questo non è stato rivelato dagli interrogatori, i ricercatori potrebbero aver sovrastimato le prestazioni umane. Infine, poiché c’era un solo utente online alla volta, erano frequentemente accoppiati con lo stesso testimone di intelligenza artificiale. Di conseguenza, le persone avevano un’idea preconcetta che ogni testimonianza fosse di un’IA, il che avrebbe potuto causare un abbassamento dei risultati in generale. Questo pregiudizio ha probabilmente influenzato i risultati nonostante gli sforzi per contrastarlo rimuovendo i giochi in cui un interrogatore aveva giocato contro un’IA più di tre volte di seguito. Infine, sono stati impiegati solo un piccolo sottoinsieme delle promozioni disponibili, sviluppate senza sapere come le persone reali avrebbero interagito con il gioco. I risultati certamente sottostimano le potenziali prestazioni di GPT-4 nel Test di Turing perché ci sono promozioni più efficaci.