Storia del mondo attraverso le lenti dell’IA

Storia del mondo con IA.

Quali conoscenze storiche codificano i modelli di linguaggio?

Probing OpenAI’s GPT-4, Anthropic’s Claude, and TII’s Falcon 40B Instruct on top historical events from 1910 (prompted in 6 different languages). Created by the author.

Gli sviluppi nell’intelligenza artificiale, in particolare nei grandi modelli di linguaggio, aprono interessanti possibilità per la ricerca storica e l’educazione. Tuttavia, è importante analizzare il modo in cui questi modelli interpretano e ricordano il passato. Riflettono eventuali pregiudizi intrinseci nella loro comprensione della storia?

Sono ben consapevole della soggettività della storia (mi sono laureato in storia durante la mia laurea!). Gli eventi che ricordiamo e le narrazioni che formiamo sul passato sono fortemente influenzati dagli storici che li hanno scritti e dalla società in cui viviamo. Prendiamo ad esempio il mio corso di storia mondiale alle superiori, che ha dedicato oltre il 75% del programma alla storia europea, distorcendo la mia comprensione degli eventi mondiali.

In questo articolo, esplorerò come la storia umana viene ricordata e interpretata attraverso il filtro dell’intelligenza artificiale. Esaminerò le interpretazioni degli eventi storici chiave da parte di diversi grandi modelli di linguaggio per scoprire:

  • Questi modelli mostrano un pregiudizio occidentale o americano verso gli eventi?
  • Le interpretazioni storiche dei modelli differiscono in base alla lingua utilizzata per le sollecitazioni, ad esempio le sollecitazioni in coreano o francese enfatizzano rispettivamente eventi coreani o francesi?

Con queste domande in mente, immergiamoci!

Esempio: 1910

Come esempio, ho chiesto a tre diversi grandi modelli di linguaggio (LLM) quali fossero i principali eventi storici dell’anno 1910. (Ulteriori dettagli su ciascun LLM nella sezione successiva.)

OpenAI’s GPT-4, Anthropic’s Claude, and Technology Innovation Institute’s Falcon 40B Instruct respond to a prompt in English about top historical events in 1910. Created by the author.

La domanda che ho posto era deliberatamente carica e non aveva una risposta oggettiva. Il significato dell’anno 1910 varia notevolmente a seconda della prospettiva culturale. Nella storia coreana, segna l’inizio dell’occupazione giapponese, un punto di svolta che ha influenzato significativamente la traiettoria del paese (vedi Trattato Giappone-Corea del 1910).

Tuttavia, l’annessione giapponese della Corea non è stata menzionata in nessuna delle risposte. Mi sono chiesto se gli stessi modelli avrebbero interpretato diversamente la domanda se sollecitati in una lingua diversa, ad esempio in coreano.

OpenAI’s GPT-4, Anthropic’s Claude, and Technology Innovation Institute’s Falcon 40B Instruct respond to a prompt in Korean about top historical events in 1910. Korean responses have been translated by me into English (in red). Created by the author.

Sollecitato in coreano, uno degli eventi principali notati da Claude è effettivamente l’annessione giapponese della Corea. Tuttavia, ho trovato interessante che due dei cinque eventi importanti di GPT-4 fossero centrati sugli Stati Uniti (Boy Scouts e Mann-Elkins Act), trascurando di menzionare l’annessione della Corea. Per non parlare del fatto che Falcon, anche quando sollecitato in coreano, ha risposto in inglese.

Gli esperimenti

La configurazione dell’esperimento era la seguente:

  • 3 modelli: GPT-4 di OpenAI, Claude di Anthropic e Falcon-40B-Instruct di TII
  • 6 lingue: inglese, francese, spagnolo, coreano, giapponese, cinese
  • 3 anni (610, 1848, 1910)
  • 5 eventi storici per esecuzione
  • 10 esecuzioni
  • = 2700 eventi totali

Lingue e Prompts

Le lingue che ho scelto sono state perlopiù arbitrarie, basate sulle lingue con cui ero più familiare (inglese, coreano) e su quelle che parlavano alcuni dei miei amici più stretti e che potevano tradurre per me (cinese, giapponese, francese, spagnolo). Le traduzioni si trovano alla fine dell’articolo. Ho chiesto loro di tradurre l’inglese per me:

"I cinque eventi storici più importanti dell'anno {}, classificati per importanza. Sii breve e fornisci solo il nome dell'evento."

Modelli

  • GPT-4 di OpenAI è la nuova generazione di ChatGPT, uno dei chatbot AI più popolari (con oltre 100 milioni di utenti attivi mensili)
  • Claude di Anthropic è un concorrente di ChatGPT addestrato per essere innocuo e utile utilizzando un metodo chiamato Constitutional AI
  • Falcon-40B-Instruct di Technical Innovation Institute è il miglior modello di linguaggio open-source, secondo la classifica Open LLM di HuggingFace

Normalizzazione degli eventi

Anche se un modello generava lo stesso evento ad ogni esecuzione, c’era molta diversità nel modo in cui descriveva lo stesso evento.

Ad esempio, i seguenti si riferiscono tutti allo stesso evento:

  • “Annessione del Giappone della Corea”
  • “Annessione del Giappone della Corea”
  • “Il Giappone annette la Corea”
  • “Trattato di annessione Giappone-Corea”

Avevo bisogno di un modo per riferirmi a un singolo evento (l’annessione giapponese della Corea) utilizzando lo stesso vocabolario (un processo noto come normalizzazione). Senza contare che lo stesso evento poteva essere descritto in sei lingue diverse!

Ho utilizzato una combinazione di regole manuali, Google Translate e GPT-4 per assistere nella normalizzazione. Inizialmente avevo sperato di utilizzare un LLM per normalizzare gli eventi di un altro LLM (ad esempio, utilizzare GPT-4 per normalizzare gli eventi di Claude; Claude per normalizzare gli eventi di Falcon, ecc.) per ridurre il bias. Tuttavia, Claude e Falcon non erano molto bravi a seguire le istruzioni per la normalizzazione e GPT-4 è emerso come il miglior modello per il compito.

Riconosco i bias che derivano dall’utilizzo di un modello per normalizzare i propri eventi. Tuttavia, poiché ho utilizzato sessioni diverse di GPT-4 per generare eventi storici e per normalizzare gli eventi, non c’è stata sovrapposizione di contesto. In futuro, la normalizzazione potrà essere effettuata utilizzando un metodo più oggettivo.

Risultati

In generale, sono rimasto sorpreso dalla diversa comprensione della storia da parte dei modelli.

  • GPT-4 tendeva a generare gli stessi eventi indipendentemente dalla lingua con cui veniva sollecitato
  • Anthropic tendeva a generare eventi storici rilevanti per la lingua con cui veniva sollecitato
  • Falcon (sfortunatamente) tendeva a inventare eventi falsi
  • Tutti e tre i modelli mostravano un bias per gli eventi occidentali o americani, ma non nel modo in cui mi aspettavo. Quando sollecitato in una lingua diversa dall’inglese, il modello generava un evento storico americano o britannico (anche quando il modello non generava quell’evento quando sollecitato in inglese). Questo è accaduto su tutti e tre i modelli.

1. Confronto tra lingue per ogni modello (1910)

Ogni combinazione di modello e lingua ha generato “i primi 5 eventi storici” 10 volte (= 50 eventi totali). Ho preso il sottoinsieme di eventi che almeno una lingua ha generato 5 volte o più. Questo perché i modelli talvolta prevedevano un evento isolato che non prevedeva mai di nuovo. Le celle con valori 10 indicano che il modello prevedeva quell’evento ogni volta che veniva sollecitato.

In questa sezione mostro gli eventi principali previsti da ciascuno dei 3 modelli, suddivisi per lingue, per l’anno 1910. Grafici simili per gli anni 610 e 1848 possono essere trovati sulla pagina di GitHub, dove ho condiviso tutto il codice e le analisi.

GPT-4 (OpenAI)

  • Rivoluzione messicana: in tutte le lingue, la Rivoluzione messicana è stata costantemente un importante evento mondiale, anche in lingue che non mi aspettavo, come il coreano o il giapponese
  • Annessione giapponese della Corea: Non menzionato quando richiesto in spagnolo o francese. Quando sollecitato in giapponese, era più probabile menzionare questo evento (9 volte) rispetto a quando sollecitato in coreano (6 volte), cosa che ho trovato strana e interessante
  • Fondazione dei Boy Scouts of America: GPT-4 ha previsto questo evento quando sollecitato in giapponese (7 volte), quasi due volte più spesso rispetto a quando sollecitato in inglese (4 volte). Sembra che delle informazioni casuali sull’America siano state incorporate nella comprensione giapponese del 1910
  • Creazione del Parco Nazionale dei Ghiacciai: Ancora più strano, GPT-4 ha previsto questo evento quando sollecitato in spagnolo e francese, ma non in inglese
Principali eventi generati da GPT-4 per l'anno 1910, confrontati nelle diverse lingue in cui è stato richiesto. Creato dall'autore.

Claude (Anthropic)

Nel complesso: A differenza di GPT-4, non c’è stato un singolo evento considerato “evento storico importante” da tutte le lingue.

  • Rivoluzione messicana: Sebbene sia stato generato spesso quando richiesto in francese, spagnolo e (in modo inspiegabile) coreano, non è stato considerato altrettanto importante in inglese come con GPT-4
  • Annessione giapponese della Corea: Più importante per coreano e giapponese rispetto alle altre lingue (i due paesi coinvolti nell’evento)
  • Morte di Edoardo VII: Più importante per inglese e francese (e non per le altre lingue). Edoardo VII era il Re del Regno Unito e apparentemente aveva buone relazioni con la Francia.
  • Esplorazione dell’Antartide: Questo evento è stata effettivamente la spedizione antartica britannica, in cui un uomo britannico raggiunse per la prima volta l’Antartide. Tuttavia, per qualche motivo sconosciuto, Claude genera questo evento solo quando sollecitato in cinese o giapponese (ma non in inglese).
Principali eventi generati da Claude per l'anno 1910, confrontati nelle diverse lingue in cui è stato richiesto. Creato dall'autore.

Falcon 40B Instruct (Open Source; TII)

Nel complesso, Falcon non è stato altrettanto coerente o preciso come gli altri due modelli. Il motivo per cui vengono mostrati meno eventi nel grafico è che non ci sono stati altri eventi che Falcon ha previsto 5 volte o più! Ciò significa che Falcon è stato un po’ inconsistente nelle sue previsioni.

  • Il Titanic affonda: Questo è effettivamente accaduto nel 1912
  • Scoppio della Prima Guerra Mondiale: Questo è effettivamente accaduto nel 1914
  • Falcon è storicamente inaccurato nelle sue previsioni. Ma almeno ha indovinato il decennio giusto?
Principali eventi generati da Falcon per l'anno 1910, confrontati nelle diverse lingue in cui è stato richiesto. Creato dall'autore.

2. Confronto delle correlazioni dei modelli per ogni lingua (1910)

Successivamente, ho quantificato quanto fossero simili le previsioni complessive di un modello rispetto agli altri. Ho utilizzato un metodo matematico (similarità del coseno) per determinare quanto fossero simili due distribuzioni di previsioni. I valori più vicini a 1 indicavano che le previsioni erano identiche; i valori più vicini a 0 indicavano che due insiemi di previsioni non avevano nulla in comune.

Di nuovo, mostro questo esempio per l’anno 1910. Gli altri anni possono essere trovati sulla pagina GitHub.

Nella maggior parte delle lingue, GPT-4 e Claude avevano un valore di correlazione più alto, il che significa che nonostante tutte le lingue, i due modelli hanno previsto un alto numero di eventi simili.

D’altra parte, Falcon tendeva ad essere meno correlato, il che significa che la sua comprensione della storia si allontanava da quella di GPT-4 e Claude.

Correlazioni dei modelli per gli eventi previsti per l'anno 1910. Creato dall'autore.

3. Confronto tra i modelli per ogni anno

Successivamente, ho confrontato i diversi modelli di linguaggio per ogni anno. Ho combinato tutti gli eventi previsti per tutte le lingue e ho considerato gli eventi complessivi previsti da un modello, indipendentemente dalla lingua. Ho preso il sottoinsieme di eventi per i quali almeno un modello ha generato 10 volte o più.

Similmente alle tendenze trovate nella sezione precedente, GPT-4 e Claude tendevano a prevedere eventi storici importanti simili per ogni anno – Le Prime Rivelazioni di Maometto e l’Ascesa dell’Imperatore Eraclio al Trono Bizantino nel 610; le Rivoluzioni Europee del 1848; e la Rivoluzione Messicana nel 1910.

C’erano certi eventi che un modello prevedeva in modo sproporzionato rispetto agli altri. Ad esempio, per l’anno 1848, GPT-4 ha previsto “Pubblicazione del Manifesto Comunista” 42 volte, rispetto alle 15 volte di Claude. Per l’anno 1910, Claude ha previsto “Morte di Edoardo VII” 26 volte, rispetto all’1 volta di GPT-4.

Falcon tendeva ad avere la minore comprensione degli eventi storici. Falcon ha perso eventi importanti per tutti e tre gli anni. Per l’anno 610, Falcon non è riuscito a prevedere l’evento dell’Ascesa dell’Imperatore Eraclio. Per l’anno 1910, non ha previsto eventi come l’Annessione della Corea da parte del Giappone, la Formazione dell’Unione del Sudafrica e la Rivoluzione Portoghese (tutti eventi globali non americani), prevedendo invece eventi centrati sull’America come il Incendio della Triangle Shirtwaist Factory (che è avvenuto nel 1911, non nel 1910). Curiosamente, Falcon è stato in grado di prevedere la maggior parte degli eventi del 1848 in modo simile agli altri due modelli – forse perché gli eventi del 1848 erano più centrati sull’Occidente (ad es. rivoluzioni europee)?

Gli eventi più lontani nel tempo (ad es. l’anno 610) significavano che la storia è un po’ più sfocata. La Dinastia Tang fu fondata nel 618, non nel 610 e la Costruzione del Gran Canale sotto l’Imperatore Yang della Dinastia Sui fu effettivamente completata in un periodo di tempo più lungo (604-609).

610

Confronto dei principali eventi generati da ciascuno dei modelli per l'anno 610, combinati per tutte le lingue. Creato dall'autore.

1848

Confronto dei principali eventi generati da ciascuno dei modelli per l'anno 1848, combinati per tutte le lingue. Creato dall'autore.

1910

Confronto dei principali eventi generati da ciascuno dei modelli per l'anno 1910, combinati per tutte le lingue. Creato dall'autore.

Discussione

Quindi perché tutto ciò è importante?

Man mano che le aziende educative incorporano sempre più Grandi Modelli di Linguaggio (LLM) nei loro prodotti – Duolingo sfruttando GPT-4 per l’apprendimento delle lingue, Khan Academy introdurre l’assistente di insegnamento AI ‘Khanmigo’, e l’Università di Harvard pianificare di integrare l’IA nel loro curriculum di informatica – capire i pregiudizi sottostanti di questi modelli diventa cruciale. Se uno studente utilizza un LLM per imparare la storia, quali pregiudizi potrebbe assorbire involontariamente?

In questo articolo, ho mostrato che alcuni modelli di linguaggio popolari, come GPT-4, prevedono costantemente “eventi importanti” indipendentemente dalla lingua della richiesta. Altri modelli, come Claude, hanno mostrato previsioni più specifiche alla lingua. I modelli a sorgente chiusa in generale hanno mostrato maggiore coerenza e accuratezza rispetto alle alternative open-source leader. In tutti i modelli testati in questo articolo, c’è stata una tendenza a prevedere eventi occidentali o americani (anche eventi arcani) a discapito di altri eventi globali.

Il lavoro futuro potrebbe includere:

  • Espandere l’analisi per includere più lingue e anni
  • Svolgere un’analisi più approfondita sull’accuratezza storica delle uscite del modello
  • Svolgere un’analisi più approfondita sulla classifica dei principali eventi storici
  • Sviluppare un metodo più oggettivo per la normalizzazione degli eventi

Lo scopo di questo articolo non era quello di screditare i modelli di linguaggio a largo margine o suggerire la loro rimozione dagli ambienti educativi. Piuttosto, vorrei invitare a un approccio critico e cauto, che riconosca e mitighi i loro pregiudizi. I modelli di linguaggio a largo margine, quando usati responsabilmente, possono essere risorse preziose sia per gli studenti che per gli insegnanti in tutti i settori disciplinari. Tuttavia, dobbiamo anche comprendere i pregiudizi che possono portare, come il centrismo occidentale, e adattarne l’uso di conseguenza.

Sostituire il professore di storia o i libri di testo con un modello di linguaggio a largo margine rischia di produrre un’interpretazione distorta e unilaterale della storia. In definitiva, dobbiamo utilizzare questi strumenti in modo ponderato, consapevoli dei loro pregiudizi intrinseci, garantendo che essi arricchiscano piuttosto che dettino la nostra comprensione del mondo.

Grazie per aver letto!

Errori

Ho provato alcuni modelli open source diversi. Di seguito sono riportati alcuni errori (tutti in coreano) delle strane uscite che ho trovato che i modelli generano!

Falcon 40B Istruzioni

Pythia 12B

Sembra che il modello sia rimasto bloccato in un ciclo composto da canguro, posta aerea e variazioni di торговать (che significa commerciare in russo).

Traduzioni

Inglese: 'Top cinque eventi storici dell'anno {}, classificati per importanza. Sii breve e fornisci solo il nome dell'evento.'Coreano: '{}년에 일어난 중대한 역사적인 사건 다섯가지는 무엇인가? 간단히 그 사건의 명칭들을 열거하시오.'Cinese: '按重要性顺序列出 {} 年的前五个历史事件。 简短一点,只给出事件的名称。'Francese: 'I cinque eventi storici più importanti del {}, in ordine di importanza. Fornisci solo i loro nomi.'Giapponese: '{}年にあったトップの出来事を五つイベント名のみで簡潔に記載してください。最も重要な出来事から。'Spagnolo: 'Una lista dei cinque eventi storici più importanti dell'anno {}. Fornisci solo il nome dell'evento.'