È intelligente ChatGPT? Una recensione scientifica.

È ChatGPT un assistente intelligente? Una recensione scientifica.

Una recensione da profano del dibattito scientifico su quale sia il futuro del paradigma attuale dell’intelligenza artificiale

Più di un anno fa, OpenAI ha rilasciato ChatGPT, sconvolgendo il mondo. ChatGPT ha introdotto un modo completamente nuovo di interagire con i computer: utilizzando un linguaggio meno rigido e più naturale rispetto a quello a cui eravamo abituati. Ancora più importante, sembrava che ChatGPT potesse fare praticamente tutto: poteva battere la maggior parte degli esseri umani nel test SAT e accedere all’esame da avvocato. Nel giro di pochi mesi è stato scoperto che poteva anche giocare bene a scacchi e superare quasi l’esame di radiologia, e alcuni sostengono che abbia sviluppato una teoria della mente.

Queste impressionanti capacità hanno spinto molti a dichiarare che l’AGI (intelligenza artificiale generale – con abilità cognitive pari o superiori a quelle umane) è dietro l’angolo. Tuttavia, altri rimanevano scettici nei confronti di questa tecnologia emergente, sottolineando che la semplice memorizzazione e l’associazione di schemi non dovrebbero essere confuse con una vera intelligenza.

Ma come possiamo realmente distinguere la differenza? All’inizio del 2023, quando sono state fatte queste affermazioni, c’erano relativamente pochi studi scientifici che indagavano sulla questione dell’intelligenza negli LLM. Tuttavia, nel corso del 2023 sono stati condotti diversi esperimenti scientifici molto intelligenti mirati a differenziare tra la memorizzazione da un corpus e l’applicazione di una vera intelligenza.

L’articolo seguente esplorerà alcuni degli studi più rivelatori nel campo, presentando il caso scientifico degli scettici. È destinato a essere accessibile a tutti, senza nessun requisito di background. Alla fine, dovreste avere una comprensione abbastanza solida del caso degli scettici.

Ma prima una pila su LLM

In questa sezione, spiegherò alcuni concetti di base necessari per comprendere gli LLM – la tecnologia alla base di GPT – senza entrare nei dettagli tecnici. Se avete una certa familiarità con l’apprendimento supervisionato e il funzionamento degli LLM – potete saltare questa parte.

Gli LLM sono un esempio classico di un paradigma di apprendimento automatico chiamato “apprendimento supervisionato”. Per utilizzare l’apprendimento supervisionato, dobbiamo disporre di un set di dati costituito da input e output desiderati, che vengono alimentati a un algoritmo (esistono molti modelli possibili tra cui scegliere) che cerca di trovare le relazioni tra questi input e output. Ad esempio, potrei avere dati immobiliari: un foglio di calcolo Excel con il numero di stanze, la dimensione e la posizione delle case (input), così come il prezzo al quale sono state vendute (output). Questi dati vengono forniti a un algoritmo che estrae le relazioni tra gli input e gli output – troverà come l’aumento della dimensione della casa o la posizione influisce sul prezzo. L’alimentazione dei dati all’algoritmo per “imparare” la relazione input-output viene chiamato “addestramento”.

Dopo che l’addestramento è stato completato, possiamo utilizzare il modello per fare previsioni su case di cui non conosciamo il prezzo. Il modello utilizzerà le correlazioni apprese dalla fase di addestramento per stimare i prezzi. Il livello di accuratezza delle stime dipende da molti fattori, soprattutto dai dati utilizzati nell’addestramento.

Questo paradigma di “apprendimento supervisionato” è estremamente flessibile e adatto a quasi ogni scenario in cui disponiamo di molti dati. I modelli possono imparare a:

  • Riconoscere oggetti in un’immagine (dato un insieme di immagini e l’etichetta corretta per ciascuna, ad esempio “gatto”, “cane”, ecc.)
  • Classificare un’email come spam (dato un dataset di email già contrassegnate come spam/non spam)
  • Predire la prossima parola in una frase.

Gli LLM rientrano nell’ultima categoria: vengono alimentati con enormi quantità di testo (per lo più trovato su internet), dove ciascun frammento di testo viene suddiviso nelle prime N parole come input e la N+1 parola come output desiderato. Una volta completato l’addestramento, possiamo utilizzarli per completare automaticamente le frasi.

Oltre a molti testi tratti da internet, OpenAI ha utilizzato testi conversazionali ben strutturati per il suo addestramento. Addestrare il modello con questi testi domanda-risposta è cruciale per farlo rispondere come un assistente.

Come funziona esattamente la previsione dipende dall’algoritmo specifico utilizzato. LLM utilizza un’architettura nota come “trasformatore”, i cui dettagli non sono importanti per noi. Ciò che è importante è che gli LLM abbiano due “fasi”: addestramento e previsione; vengono loro dati testi da cui estrarre correlazioni tra parole per prevedere la prossima parola o viene loro dato un testo da completare. Si noti che l’intero paradigma dell’apprendimento supervisionato assume che i dati forniti durante l’addestramento siano simili ai dati utilizzati per la previsione. Se lo si utilizza per prevedere dati provenienti da un’origine completamente nuova (ad esempio, dati immobiliari di un altro paese), l’accuratezza delle previsioni ne risentirà.

Ora torniamo all’intelligenza

Quindi, ChatGPT, addestrandosi per completare automaticamente le frasi, ha sviluppato intelligenza? Per rispondere a questa domanda, dobbiamo definire “intelligenza”. Ecco un modo per definirla:

(Immagine dell'autore)

L’hai capito? Se non l’hai capito, ChatGPT può spiegarlo:

(Immagine dell'autore)

Appare certamente come se ChatGPT avesse sviluppato intelligenza, poiché è stato abbastanza flessibile da adattarsi alla nuova “ortografia”. O no? Tu, il lettore, potresti essere stato in grado di adattarti all’ortografia che non hai mai visto prima, ma ChatGPT è stato addestrato su una grande quantità di dati provenienti da internet: e questo stesso esempio può essere trovato su molti siti web. Quando GPT ha spiegato questa frase, ha semplicemente utilizzato parole simili a quelle presenti nel suo addestramento, e questo non dimostra flessibilità. Sarebbe stato in grado di mostrare “IN73LL1G3NC3”, se quella frase non fosse mai apparsa nei suoi dati di addestramento?

Questo è il fulcro del dibattito LLM-AGI: GPT (e gli LLM in generale) hanno sviluppato una vera intelligenza flessibile o stanno semplicemente ripetendo variazioni su testi che hanno visto in precedenza?

Come possiamo separare i due? Rivolgiamoci alla scienza per esplorare le capacità e i limiti degli LLM.

La Maledizione della Reversione: gli LLM addestrati sull’asserzione “A è B” falliscono nell’apprendere l’asserzione “B è A”

Supponiamo che ti dica che Olaf Scholz è stato il nono Cancelliere della Germania, puoi dirmi chi è stato il nono Cancelliere della Germania? Potrebbe sembrarti banale, ma per gli LLM non è affatto ovvio.

In questo brillante articolo, i ricercatori hanno interrogato ChatGPT sui nomi dei genitori di 1000 celebrità (ad esempio: “Chi è la madre di Tom Cruise?”), a cui ChatGPT è stato in grado di rispondere correttamente il 79% delle volte (“Mary Lee Pfeiffer” in questo caso). I ricercatori hanno poi utilizzato le domande a cui GPT ha risposto correttamente per formulare la domanda opposta: “Chi è il figlio di Mary Lee Pfeiffer?”. Sebbene per rispondere a entrambe sia richiesta la stessa conoscenza, GPT è riuscito a rispondere correttamente solo al 33% di queste domande.

Perché? Ricordiamo che GPT non ha “memoria” o “database” — tutto ciò che può fare è prevedere una parola data un contesto. Dal momento che Mary Lee Pfeiffer viene menzionata negli articoli come madre di Tom Cruise più spesso di quanto lui venga menzionato come suo figlio, GPT può ricordare una direzione e non l’altra.

ChatGPT non riesce a ricordare che Tom Cruise è il figlio di Mary Lee Pfeiffer (Immagini dell'autore)

Per sottolineare questo punto, i ricercatori hanno creato un dataset di fatti falsificati con la struttura “<descrizione> è <nome>”, ad esempio, “La prima persona ad aver camminato su Marte è Tyler Oakridge”. Le LLM sono state quindi addestrate su questo dataset e interrogate sulla descrizione: “Chi è la prima persona ad aver camminato su Marte” – dove GPT-3 ha avuto successo con un’accuratezza del 96%.

Ma quando è stato chiesto il nome – “Chi è Tyler Oakridge” – GPT ha ottenuto lo 0%. Questo potrebbe sembrare sorprendente all’inizio, ma è coerente con ciò che sappiamo sull’apprendimento supervisionato: GPT non può codificare questi fatti nella memoria e richiamarli successivamente, può solo prevedere una parola data una sequenza di parole. Poiché in tutti i testi, ha letto il nome seguito dalla descrizione e non viceversa, non ha mai imparato a prevedere fatti sul nome. Evidentemente, la memoria sviluppata solo attraverso l’addestramento dell’autocompletamento è molto limitata.

Ragionare o recitare? Esplorare le capacità e le limitazioni dei modelli di linguaggio attraverso compiti controfattuali

Questo articolo è forse l’articolo più importante che esplorerò, mirano proprio alla differenza tra memorizzazione e intelligenza. È composto da diversi mini-esperimenti, tutti utilizzando compiti controfattuali. Ecco un esempio di un compito controfattuale:

In genere, l’aritmetica viene fatta in base 10 (usando numeri da 0 a 9), tuttavia, possono essere utilizzati altri sistemi numerici, utilizzando solo un sottoinsieme di questi numeri o numeri aggiuntivi.

Un compito controfattuale potrebbe essere risolvere domande di aritmetica in una base diversa da 10: le abilità astratte necessarie per completare il compito sono identiche, ma troverai significativamente più esempi del sistema decimale su Internet (e nei set di addestramento delle LLM). Quando a GPT-4 sono state poste semplici domande di aritmetica (27+62) in base 10, ha risposto correttamente al 100% delle domande. Tuttavia, quando gli è stato detto di usare la base 9 nei calcoli, il suo successo è sceso al 23%. Questo dimostra che non è riuscito a imparare abilità astratte di aritmetica ed è legato a esempi simili a quelli che ha visto.

Questi compiti controfattuali sono stati creati per diversi altri domini, come puoi vedere qui sotto:

La performance di GPT-4 nella versione predefinita di vari compiti (blu) e nei controparti controfattuali (arancio). GPT-4 risulta costantemente e sostanzialmente meno performante nelle varianti controfattuali rispetto alle istanze di compiti predefiniti. (Immagine gentilmente fornita da Zhaofeng Wu, uno degli autori dell'articolo)

Ecco un altro esempio di compito controfattuale: Python utilizza una numerazione a base zero; tuttavia, questa è solo una convenzione e possiamo facilmente creare un linguaggio di programmazione con una numerazione a base uno. Scrivere codice in una variante di Python con numerazione a base uno richiede le stesse competenze del Python normale e qualsiasi programmatore esperto sarebbe in grado di adattarsi al cambiamento rapidamente. Non così per GPT-4: ha ottenuto l’82% nella generazione di codice per Python, ma solo il 40% quando gli è stato detto di usare una variante a base uno. Quando è stato testato sull’interpretazione del codice (prevedendo cosa farebbe un pezzo di codice), ha ottenuto il 74% per Python normale e il 25% per la variante insolita.

Ma non dobbiamo avventurarci in diverse versioni di Python. Anche in Python normale, gli LLM falliscono quando vengono dati compiti di codifica strani che non si possono trovare sul web, come ha dimostrato di recente Filip Pieniewski su Gemini.

Nel gioco degli scacchi, a GPT è stato chiesto di valutare se una sequenza di mosse fosse legale o meno. Per una partita di scacchi normale, ha previsto con precisione la legalità di una mossa dell’88% delle volte. Ma quando le posizioni di partenza degli alfieri e dei cavalieri venivano scambiate, le sue supposizioni sulla legalità delle mosse diventavano completamente casuali, mentre anche un giocatore umano alle prime armi dovrebbe essere in grado di adattarsi facilmente a questi cambiamenti.

In effetti, Jonas Persson ha dimostrato che non è necessario nemmeno cambiare le posizioni di partenza. Se inizi a giocare una partita di scacchi con GPT e fai mosse non convenzionali, ma legali, potrebbe affermare che sono illegali perché non ha mai visto mosse simili. Come ha osservato Persson in modo eloquente:

Quando è sufficientemente avanzato, il riconoscimento dei pattern puri può imitare un ragionamento deduttivo basato sulle regole. Ma sono distinti. Giocare a scacchi con GPT-4 significa entrare in un villaggio Potemkin. Sviati dalla strada principale in un vicolo – fai qualcosa di inaspettato – e ti rendi subito conto che le case dall’aspetto impressionante sono solo scenografie.”

GPT afferma che spostare la torre su h3 è una mossa illegale. (Immagine dell'autore)

Questa scoperta è estremamente compromettente per gli LLM come tecnologia di intelligenza generale. Risolvere i problemi spesso comporta la creazione di nuove regole o concezioni di un problema: un programmatore può scrivere una libreria con una nuova logica interna, un matematico può inventare un nuovo ramo della matematica, o un artista può scoprire nuovi stili artistici: tutti comprendono le limitazioni di un paradigma attuale, per poi creare regole per uno nuovo. Anche le attività più banali richiedono questa flessibilità: se la strada è bloccata, puoi deviare dal percorso segnato. Potrebbe GPT realizzare qualcuna di queste cose? Se non può seguire coerentemente regole controfattuali quando gli viene esplicitamente detto di farlo, potrebbe “realizzare” autonomamente che una soluzione per un problema richiede un nuovo insieme di regole, una deviazione dal paradigma predefinito? Potrebbe un motore basato sul rilevamento di correlazioni nei dati essere abbastanza flessibile per rispondere a situazioni nuove?

Teoria della mente (ToM)

La teoria della mente è la capacità di capire che altre persone possono avere credenze e desideri diversi dai propri, una capacità che è assente nei primi anni di sviluppo di un bambino. Un metodo per testare la teoria della mente è presentare a un bambino una scatola con la scritta “cioccolato”, che in realtà contiene matite. Poi mostriamo al bambino il vero contenuto della scatola e gli chiediamo “Cosa penseresti che ci sia nella scatola, il tuo amico Jeremy?”. Se il bambino non ha ancora sviluppato la teoria della mente, risponderà “matite”, perché non può separare la sua conoscenza del contenuto da ciò che un’altra persona potrebbe pensare.

Un bambino che non ha ancora sviluppato la teoria della mente non può separare la sua conoscenza del contenuto da ciò che un'altra persona potrebbe pensare. (Immagine dell'autore)

Questa capacità è cruciale per capire le motivazioni di una persona e quindi cruciale nello sviluppo di un’intelligenza artificiale generale. Immagina di avere un robot multiuso e gli dai l’istruzione di “pulire la stanza”. Nel processo di pulizia, il robot dovrà prendere diverse decisioni su cosa pulire o spostare; è importante quel pezzo di carta accartocciato o dovrei buttarlo via? Dovrei chiedere prima? In generale, un agente intelligente deve capire la mia motivazione e i limiti della mia conoscenza per poter completare i dettagli di implementazione di richieste complesse.

Per questo motivo, quando nuove ricerche hanno affermato che la Teoria della Mente potesse essere emersa spontaneamente nelle LLM, ha suscitato grande interesse nel campo dell’IA. L’articolo ha utilizzato una versione testuale dell’esame delle matite/cioccolato per testare GPT-4 e ha scoperto che ha ottenuto risultati al livello di un bambino di sette anni. Questo potrebbe sembrare impressionante all’inizio, ma ricordiamo l’esempio di “IN73LL1G3NC3”: i dati di addestramento per GPT potrebbero contenere esempi di queste domande di test. Pertanto, non è un confronto equo con un bambino che supera il test senza alcun addestramento su domande simili. Se vogliamo testare la capacità di ToM di GPT, dobbiamo creare un nuovo esame di cui siamo certi che non sia stato incluso nei dati di addestramento.

FANToM: Un benchmark per stress-testing del Machine Theory of Mind nelle interazioni

Questo articolo presenta un nuovo benchmark per la ToM, che include diverse conversazioni con più partecipanti. Durante queste conversazioni, alcuni partecipanti “escono dalla stanza” per un po’ di tempo, mentre gli altri partecipanti continuano la loro conversazione. Viene quindi chiesto all’LLM di rispondere a diverse domande su chi sa cosa: Kailey sa la razza del cane di Linda? Chi sa di quale razza si tratta? Quale razza penserebbe David che sia? L’LLM viene considerato aver risposto correttamente solo se la sua risposta è corretta su tutte le domande riguardanti la stessa informazione.

Questa può essere una task confusa, quindi anche gli esseri umani hanno raggiunto solo l’87,5% in questo test. Tuttavia, GPT-4 ha ottenuto un punteggio del 4,1% o del 12,3%, a seconda della versione di GPT; risultati difficilmente consistenti con l’affermazione che GPT abbia sviluppato una ToM di livello umano.

Illustrazione del dataset FANToM. (Immagine gentilmente fornita da Melanie Sclar, una degli autori dell'articolo)

Considerazioni sulla validità dei test psicometrici

È importante fare un punto più generale su tutti i test psicometrici: le persone spesso confondono il test con la qualità che sta cercando di misurare. La ragione per cui ci preoccupiamo dei punteggi SAT è perché sono correlati con la performance al college. Il successo negli esami ToM nei bambini è correlato ad altri comportamenti di valore: comprendere le espressioni facciali di una persona, ricordare attributi della personalità di una persona o essere in grado di guardare un film e capire le motivazioni dei personaggi. Anche se queste correlazioni tra i test e i comportamenti sono state dimostrate negli esseri umani, non c’è motivo di presumere che si applichino anche alle LLM. Infatti, nonostante i risultati impressionanti al SAT, GPT ha ottenuto in media il 28% negli esami universitari aperti di matematica, chimica e fisica. Fino a prova contraria, superare un test non dimostra altro che la capacità di rispondere correttamente alle domande del test.

Ma per la ToM non c’è una correlazione significativa: che le LLM superino o meno un test di ToM, esse non possono vedere espressioni facciali, guardare film o persino ricordare una persona e le sue motivazioni da un’interazione all’altra. Poiché i comportamenti che ci interessano veramente quando misuriamo la ToM non sono disponibili per le LLM, l’idea che le LLM abbiano sviluppato la Teoria della Mente non è solo falsa, ma potrebbe anche essere priva di significato (o almeno richiede una nuova definizione e comprensione del termine).

Sulle capacità di pianificazione dei Large Language Models – Un’indagine critica

Questo esperimento ha cercato di indagare sulle capacità di pianificazione delle LLM. Un esempio di compito presentato all’LLM è quello di impilare blocchi colorati in un determinato ordine, data una “condizione iniziale” dei blocchi (disposti in un certo ordine sul tavolo). L’LLM viene presentato con una lista di azioni possibili chiaramente definite, ad esempio:

Azione: prelevaParametro: quale oggettoPrecondizione: l'oggetto non ha nulla su di esso,
            l'oggetto è sul tavolo,
            la mano è vuotaEffetto: l'oggetto è in mano,
        la mano non è vuota

Il compito di LLM consiste nel specificare un elenco di azioni da intraprendere per raggiungere l’obiettivo.

Un compito simile consisteva nel spedire un pacchetto da un indirizzo a un altro quando le azioni disponibili erano la consegna tramite camion e aereo. Si tratta di compiti di pianificazione relativamente semplici, che utilizzano solo una manciata di azioni possibili, tuttavia, GPT-4 ha ottenuto un punteggio del 12-35% per il puzzle dei blocchi e dal 5 al 14% per il compito di logistica (a seconda della configurazione).

Inoltre, se i nomi delle azioni venissero sostituiti con parole casuali (da “preleva” ad “attacca”), anche se la definizione di ogni azione rimanesse simile, il successo di GPT sarebbe sceso al 0-3%. In altre parole, GPT non utilizzava il pensiero astratto per risolvere questi problemi, ma dipendeva dalla semantica.

Conclusione, sono gli LLM il percorso per l’AGI?

Definire l’intelligenza non è un compito semplice, ma io sostengo che qualsiasi vera intelligenza debba avere almeno quattro elementi:

  • Astrazione – la capacità di identificare oggetti come parte di una categoria o regola più ampia. Questa rappresentazione astratta del mondo può essere definita “modello cognitivo del mondo”. Ad esempio, la comprensione che diverse immagini sulla retina si riferiscono alla stessa persona, o che una mossa negli scacchi è legale come parte di un insieme di regole che valgono per qualsiasi partita di scacchi.
  • Memoria – la capacità di associare attributi a entità e relazioni tra entità nel modello del mondo, e la capacità di aggiornarli nel tempo. Ad esempio, una volta riconosciuta una persona, potresti essere in grado di ricordare altri attributi su di loro o le loro relazioni con altre persone.
  • Ragionamento e inferenza – la capacità di utilizzare il modello del mondo per trarre conclusioni sul comportamento delle entità in uno stato del mondo nuovo o immaginato. Ad esempio, essere in grado di prevedere la traiettoria di una palla lanciata, in base agli attributi di quella palla, o prevedere il comportamento di una persona in base alle sue caratteristiche.
  • Pianificazione – la capacità di utilizzare il ragionamento per sviluppare un insieme di azioni per raggiungere un obiettivo.

Un anno fa, avremmo potuto dedurre analiticamente che questi elementi difficilmente sarebbero emersi negli LLM, basandoci sulla loro architettura, ma oggi non abbiamo più bisogno di deduzioni analitiche, poiché abbiamo i dati empirici a dimostrare che gli LLM hanno prestazioni scadenti su tutti gli elementi sopra menzionati. Non sono altro che modelli statistici di completamento automatico, che utilizzano un potente metodo di ricerca di modelli. Per un’analisi più approfondita degli elementi di intelligenza mancanti dal paradigma attuale dell’apprendimento automatico, consultare il famoso articolo di Gary Marcus “L’apprendimento profondo sta raggiungendo un limite”.

Quando ChatGPT è stato rilasciato per la prima volta, un mio amico mi ha detto che conversare con esso sembra magico. Ma proprio come un mago che divide una persona in due, è importante esaminarne le prestazioni e testarle in contesti diversi prima di affermare che la tecnica di suddivisione possa rivoluzionare le operazioni chirurgiche. Il “trucco” usato dagli LLM consiste nelle insondabili quantità di testi su cui vengono addestrati, permettendo loro di fornire risposte ragionevoli per molte domande. Ma quando vengono testati in territorio inesplorato, le loro capacità svaniscono.

Sarà GPT-5 migliore? Presumendo che utilizzi ancora l’architettura di GPT e che venga addestrato solo su più dati e con più parametri, c’è poco motivo per aspettarsi che sviluppi abilità di astrazione o ragionamento. Come ha scritto François Chollet, ricercatore AI di Google: “È affascinante come le limitazioni del deep learning siano rimaste le stesse dal 2017. Gli stessi problemi, le stesse modalità di fallimento, nessun progresso.”

Poiché di recente si è discusso molto della regolamentazione dell’AI e dei potenziali pericoli degli LLM, mi sento obbligato a chiarire che la mancanza di vera intelligenza non implica che non ci siano rischi potenziali da parte degli LLM. Dovrebbe essere ovvio che l’umanità possiede diverse tecnologie che non hanno pretese di intelligenza eppure possono infliggere danni alla società in vari modi, e dovrebbero essere controllate.

Attraverso la nostra rinnovata comprensione delle limitazioni delle LLM, possiamo prevedere più accuratamente da dove potrebbe derivare il danno: dato che l’intelligenza non sembra imminente, Skynet e la Matrice non dovrebbero preoccuparci. Ciò che potrebbe preoccuparci sono le attività che richiedono solo la rapida generazione di testi che sembrano reali, forse il phishing e la diffusione di notizie false. Tuttavia, se le LLM rappresentino veramente uno strumento disruptive per questi compiti è un dibattito diverso.

Quale sia il futuro della AGI è un’ipotesi di ognuno. Forse alcune delle tecniche di apprendimento automatico utilizzate nelle LLM saranno utilizzate in un futuro agente artificiale intelligente, e forse no. Ma c’è poco dubbio che manchino ancora pezzi fondamentali del puzzle prima che la flessibilità necessaria per l’intelligenza possa emergere nelle macchine.