Una nuova ricerca sull’apprendimento automatico del MIT mostra come i modelli di linguaggio di grandi dimensioni (LLM) comprendano e rappresentino i concetti di spazio e tempo

Un nuovo studio del MIT sul machine learning rivela come i grandi modelli di linguaggio (LLM) comprendano e rappresentino i concetti di spazio e tempo

I modelli linguistici di grandi dimensioni (LLM) hanno mostrato delle incredibili capacità recentemente. Il noto ChatGPT, costruito sull’architettura trasformatrice del GPT, ha guadagnato enorme popolarità grazie alle sue capacità di imitare gli esseri umani. Dalla risposta alle domande alla sintesi del testo, dalla generazione di contenuti alla traduzione linguistica, ha numerosi casi d’uso. Con la loro eccessiva popolarità, ci si è interrogati su cosa questi modelli abbiano veramente imparato durante il loro addestramento.

Secondo una teoria, i LLM sono eccellenti nel riconoscere e prevedere schemi e correlazioni nei dati, ma falliscono nella comprensione dei meccanismi fondamentali che producono i dati. In linea di principio, rispecchiano motori statistici molto competenti, anche se potrebbero non avere effettiva comprensione. Un’altra teoria afferma che i LLM apprendono correlazioni e sviluppano modelli più condensati, coerenti e comprensibili dei processi generativi sottostanti i dati di addestramento.

Recentemente, due ricercatori del Massachusetts Institute of Technology hanno studiato i Modelli Linguistici di Grandi Dimensioni per capire meglio come apprendano. La ricerca esplora in particolare se questi modelli creino effettivamente un modello coerente del processo di generazione dei dati sottostante, spesso definito “modello del mondo”, o se memorizzino semplicemente schemi statistici.

I ricercatori hanno utilizzato test di sondaggio con una famiglia di modelli LLM chiamati Llama-2, creando sei set di dati che coprono diverse scale spaziotemporali e comprendono nomi di luoghi, eventi e relativi coordinate spaziali o temporali. Le posizioni in questi database si estendono a livello mondiale, inclusa la città di New York negli Stati Uniti, le date di uscita delle opere d’arte e dell’intrattenimento, e le date di pubblicazione dei titoli delle notizie. Hanno utilizzato sonde di regressione lineare sulle attivazioni interne dei livelli dei LLM per verificare se i LLM creino rappresentazioni di spazio e tempo. Queste sonde prevedono la posizione o il tempo preciso nel mondo reale corrispondente a ciascun nome del set di dati.

La ricerca ha dimostrato che i LLM apprendono rappresentazioni lineari sia dello spazio che del tempo a diverse scale. Ciò implica che i modelli apprendono gli aspetti spaziali e temporali in modo strutturato e organizzato. Comprendono le relazioni e i modelli spaziali e temporali in modo metodico, piuttosto che limitarsi a memorizzare gli elementi dei dati. È stato anche scoperto che le rappresentazioni dei LLM sono resilienti ai cambiamenti di istruzioni o input. Anche quando il modo in cui le informazioni vengono fornite è diverso, i modelli dimostrano costantemente una buona comprensione e rappresentazione delle informazioni spaziali e temporali.

Secondo lo studio, le rappresentazioni non sono limitate a una particolare classe di entità. Le città, i luoghi di interesse, le persone storiche, i capolavori d’arte o i titoli delle notizie sono tutti rappresentati in modo uniforme dai LLM in termini di spazio e tempo, il che fa presumere che i modelli producano una comprensione esaustiva di queste dimensioni. I ricercatori hanno addirittura individuato particolari neuroni dei LLM, che descrivono come “neuroni spaziali” e “neuroni temporali”. Questi neuroni esprimono in modo accurato le coordinate spaziali e temporali, dimostrando l’esistenza di componenti specializzate nei modelli che elaborano e rappresentano lo spazio e il tempo.

In conclusione, i risultati di questo studio hanno rafforzato l’idea che i LLM contemporanei vanno oltre la memorizzazione di statistiche e invece apprendono informazioni strutturate e significative su dimensioni importanti come spazio e tempo. Si può sicuramente affermare che i LLM sono più di semplici motori statistici e possono rappresentare la struttura sottostante dei processi di generazione dei dati su cui vengono addestrati.