Come i LLM basati su Transformer estraggono conoscenza dai loro parametri

Come gli LLM basati su Transformer estraggono conoscenza dai parametri

Negli ultimi anni, i grandi modelli di linguaggio basati su trasformatori (LLM) sono diventati molto popolari grazie alla loro capacità di catturare e memorizzare conoscenze fattuali. Tuttavia, come questi modelli estraggono associazioni fattuali durante l’elaborazione rimane ancora relativamente poco esplorato. Uno studio recente condotto da ricercatori di Google DeepMind, Tel Aviv University e Google Research ha cercato di esaminare i meccanismi interni attraverso i quali i LLM basati su trasformatori memorizzano ed estraggono associazioni fattuali.

Lo studio ha proposto un approccio di flusso di informazione per indagare come il modello predice l’attributo corretto e come le rappresentazioni interne si evolvono attraverso i livelli per generare output. In particolare, i ricercatori si sono concentrati su LLM basati solo sul decodificatore e hanno identificato punti critici di calcolo legati alla relazione e alle posizioni soggetto. Hanno ottenuto ciò utilizzando una strategia di “knock out” per impedire all’ultima posizione di accedere ad altre posizioni a livelli specifici, osservando poi gli impatti durante l’elaborazione.

Per individuare ulteriormente i luoghi in cui avviene l’estrazione degli attributi, i ricercatori hanno analizzato le informazioni che si propagano in questi punti critici e il processo di costruzione delle rappresentazioni precedenti. Hanno ottenuto ciò attraverso ulteriori interventi sul vocabolario e sui sottolivelli di auto-attenzione multi-head (MHSA) e perceptron multi-strato (MLP) del modello e sulle relative proiezioni.

I ricercatori hanno identificato un meccanismo interno per l’estrazione degli attributi basato su un processo di arricchimento del soggetto e un’operazione di estrazione dell’attributo. In particolare, le informazioni sul soggetto vengono arricchite nell’ultimo token del soggetto attraverso i primi livelli del modello, mentre la relazione viene passata all’ultimo token. Infine, l’ultimo token utilizza la relazione per estrarre gli attributi corrispondenti dalla rappresentazione del soggetto tramite i parametri della testa di attenzione.

Le scoperte offrono spunti su come le associazioni fattuali vengono memorizzate ed estratte internamente nei LLM. I ricercatori ritengono che queste scoperte potrebbero aprire nuove direzioni di ricerca per la localizzazione delle conoscenze e la modifica dei modelli. Ad esempio, l’approccio dello studio potrebbe essere utilizzato per identificare i meccanismi interni attraverso i quali i LLM acquisiscono e memorizzano informazioni di parte e per sviluppare metodi per mitigare tali distorsioni.

In generale, questo studio mette in evidenza l’importanza di esaminare i meccanismi interni attraverso i quali i LLM basati su trasformatori memorizzano ed estraggono associazioni fattuali. Comprendendo questi meccanismi, i ricercatori possono sviluppare metodi più efficaci per migliorare le prestazioni del modello e ridurre le distorsioni. Inoltre, l’approccio dello studio potrebbe essere applicato ad altre aree dell’elaborazione del linguaggio naturale, come l’analisi del sentiment e la traduzione del linguaggio, per comprendere meglio come questi modelli operano internamente.