Prevedere il passato con Ithaca
'Predicting the past with Ithaca' in English.
Ripristinare, collocare e datare antichi testi attraverso la collaborazione tra intelligenza artificiale e storici
La nascita della scrittura umana segnò l’alba della Storia ed è fondamentale per la nostra comprensione delle antiche civiltà e del mondo in cui viviamo oggi. Ad esempio, più di 2500 anni fa, i Greci iniziarono a scrivere su pietra, ceramica e metallo per documentare tutto, dalle locazioni e le leggi ai calendari e gli oracoli, offrendo una visione dettagliata della regione mediterranea. Purtroppo, si tratta di un registro incompleto. Molte delle iscrizioni sopravvissute sono state danneggiate nei secoli o spostate dalla loro posizione originale. Inoltre, le moderne tecniche di datazione, come la datazione al radiocarbonio, non possono essere utilizzate su questi materiali, rendendo le iscrizioni difficili e lunghe da interpretare.
In linea con la missione di DeepMind di risolvere l’intelligenza per promuovere la scienza e l’umanità, abbiamo collaborato con il Dipartimento di Studi Umanistici dell’Università Ca’ Foscari di Venezia, la Facoltà di Studi Classici dell’Università di Oxford e il Dipartimento di Informatica dell’Università di Economia e Business di Atene per esplorare come l’apprendimento automatico possa aiutare gli storici a interpretare meglio queste iscrizioni, offrendo una comprensione più approfondita della storia antica e aprendo la possibilità di una collaborazione tra intelligenza artificiale e storici.
In un articolo pubblicato oggi su Nature, presentiamo congiuntamente Ithaca, la prima rete neurale profonda in grado di ripristinare il testo mancante delle iscrizioni danneggiate, identificare la loro posizione originale e aiutare a stabilire la data in cui sono state create. Ithaca prende il nome dall’isola greca nell’Odissea di Omero e si basa su Pythia, il nostro precedente sistema focalizzato sul ripristino del testo. Le nostre valutazioni mostrano che Ithaca raggiunge un’accuratezza del 62% nel ripristino di testi danneggiati, un’accuratezza del 71% nell’identificare la loro posizione originale e può datare i testi entro 30 anni dai loro intervalli di date reali. Gli storici hanno già utilizzato lo strumento per rivalutare periodi significativi della storia greca.
Per rendere la nostra ricerca ampiamente disponibile a ricercatori, educatori, personale museale e altri, abbiamo collaborato con Google Cloud e Google Arts & Culture per lanciare una versione interattiva gratuita di Ithaca. E per agevolare ulteriori ricerche, abbiamo anche reso il nostro codice open source, il modello preaddestrato e un notebook interattivo di Colaboratory.
- GopherCite Insegnare ai modelli di linguaggio a fornire risposte supportate da citazioni verificate
- Un’analisi empirica dell’addestramento di modelli di linguaggio di grandi dimensioni ottimizzati per il calcolo
- Ultimi studi di DeepMind all’ICLR 2022

Strumenti collaborativi
Ithaca è addestrata sul più grande set di dati digitali di iscrizioni greche del Packard Humanities Institute. I modelli di elaborazione del linguaggio naturale sono comunemente addestrati utilizzando parole perché l’ordine in cui compaiono nelle frasi e le relazioni tra di loro forniscono contesto e significato aggiuntivo. Ad esempio, “c’era una volta” ha più significato di ogni carattere o parola visto separatamente. Tuttavia, molte delle iscrizioni che gli storici sono interessati ad analizzare con Ithaca sono danneggiate e spesso mancano di pezzi di testo. Per garantire che il nostro modello funzioni ancora quando viene presentato con uno di questi, l’abbiamo addestrato utilizzando sia parole che i singoli caratteri come input. Il meccanismo di auto-attenzione sparso al centro del modello valuta questi due input in parallelo, consentendo ad Ithaca di valutare le iscrizioni come necessario.
Per massimizzare il valore di Ithaca come strumento di ricerca, abbiamo anche creato diversi strumenti visivi per garantire che i risultati di Ithaca siano facilmente interpretabili dagli storici:
- Ipotesti di ripristino: Ithaca genera diverse ipotesi di previsione per il compito di ripristino del testo, affinché gli storici possano scegliere in base alla propria esperienza.
- Attribuzione geografica: Ithaca mostra la sua incertezza fornendo agli storici una distribuzione di probabilità su tutte le possibili previsioni, anziché solo un singolo risultato. Di conseguenza, restituisce probabilità per 84 diverse regioni antiche, rappresentando il suo livello di certezza. Visualizza questi risultati su una mappa per evidenziare possibili connessioni geografiche sottostanti in tutto il mondo antico.
- Attribuzione cronologica: Quando si data un testo, Ithaca produce una distribuzione di date previste per tutte le decadi dal 800 a.C. all’800 d.C. Ciò consente agli storici di visualizzare la fiducia del modello per specifici intervalli di date, che possono offrire preziose intuizioni storiche.
- Mappe di rilevanza: Per comunicare i risultati agli storici, Ithaca utilizza una tecnica comunemente usata nella visione artificiale che identifica quali sequenze di input contribuiscono maggiormente a una previsione. L’output evidenzia le parole con diverse intensità di colore che hanno portato alle previsioni di Ithaca per il testo mancante, la posizione e le date.
Contributo ai dibattiti storici
La nostra valutazione sperimentale mostra come le decisioni di progettazione di Ithaca e gli strumenti di visualizzazione rendano più facile per i ricercatori interpretare i risultati. Gli storici esperti con cui abbiamo collaborato hanno ottenuto una precisione del 25% quando lavoravano da soli per ripristinare i testi antichi. Ma, utilizzando Ithaca, le loro prestazioni aumentano al 72%, superando le prestazioni individuali del modello e mostrando il potenziale per la cooperazione tra uomo e macchina per avanzare nell’interpretazione storica, stabilire datazioni relative per eventi storici e persino contribuire ai dibattiti metodologici attuali.
Ad esempio, gli storici sono attualmente in disaccordo sulla data di una serie di importanti decreti ateniesi redatti in un periodo in cui figure di rilievo come Socrate e Pericle vivevano. Si è a lungo pensato che i decreti fossero stati scritti prima del 446/445 a.C., anche se nuove prove suggeriscono una data negli anni ’20 del V secolo a.C. Sebbene possa sembrare una piccola differenza, questi decreti sono fondamentali per la nostra comprensione della storia politica di Atene classica.
Il nostro set di dati di addestramento contiene la cifra precedente del 446/445 a.C. Per testare le previsioni di Ithaca, l’abbiamo addestrato nuovamente su un set di dati che non conteneva le iscrizioni datate e poi abbiamo sottoposto questi testi trattenuti per l’analisi. Sorprendentemente, la data media prevista da Ithaca per i decreti è il 421 a.C., in accordo con le più recenti scoperte sulla datazione e dimostrando come l’apprendimento automatico possa contribuire ai dibattiti su uno dei momenti più significativi nella storia greca.
Crediamo che questo sia solo l’inizio per strumenti come Ithaca e il potenziale di collaborazione tra l’apprendimento automatico e le discipline umanistiche. L’antica Grecia svolge un ruolo fondamentale nella nostra comprensione del mondo mediterraneo, ma è ancora solo una parte di un vasto quadro globale delle civiltà. A tal fine, stiamo attualmente lavorando su versioni di Ithaca addestrate su altre lingue antiche e gli storici possono già utilizzare i loro dataset nell’architettura attuale per studiare altri sistemi di scrittura antichi, dall’Accadico al Demotico, dall’Ebraico al Maya. Speriamo che modelli come Ithaca possano sbloccare il potenziale cooperativo tra l’intelligenza artificiale e le discipline umanistiche, influenzando in modo trasformativo il modo in cui studiamo e scriviamo sui periodi più significativi della storia umana.
- Leggi l’articolo
- Esplora la versione interattiva di Ithaca
- Ottieni il codice open source
- Leggi una traduzione in lingua greca di questo blog