Verso la spiegazione dell’LLM Perché il mio modello ha prodotto questa uscita?

Alla scoperta dell'LLM Perché il mio modello ha generato questa uscita?

Il rilascio in questi ultimi mesi di modelli di lingua più grandi e migliori, che mostrano nuove capacità, è stato abbinato a crescenti preoccupazioni generali sulla sicurezza dell’AI. La ricerca sulla spiegazione dei modelli di lingua larga cerca di ampliare la nostra comprensione di come funzionano questi modelli.

I modelli di lingua larga (LLM) hanno registrato molti sviluppi nell’anno passato, come ad esempio il recente rilascio di GPT-4 e Claude 2. Questi modelli mostrano nuove capacità rispetto alle loro versioni precedenti, ma la maggior parte di esse viene scoperta attraverso un’analisi post-hoc e non faceva parte di un piano di formazione intenzionale. Sono una conseguenza della scalabilità del modello in termini di numero di parametri, dati di formazione e risorse di calcolo.

A livello concettuale, mi piace l’analogia tra i LLM e gli algoritmi di compressione. Terabyte di dati Internet vengono elaborati e molti FLOPS dopo otteniamo un file di qualche centinaio di GB contenente i parametri di un LLM. Il modello non è in grado di recuperare precisamente la conoscenza iniziale, ma produce comunque un’uscita pertinente nella maggior parte dei casi.

Immagine dell'autore e DALL-E 3 (ispirata all'introduzione di Karpathy)

Il mistero dei LLM non risiede nell’architettura tecnica o nella complessità dei loro calcoli. Se l’architettura di un modello è completamente documentata, possiamo seguire facilmente le operazioni matematiche che vengono eseguite. Ma ancora non possiamo spiegare completamente come un preciso insieme di parametri collabori nel produrre un’uscita che abbia senso. Come viene effettivamente recuperata la conoscenza dai dati di formazione iniziali? Dove e come viene effettivamente archiviata all’interno della rete?

La spiegabilità dei LLM è un’area di ricerca attiva e sono stati pubblicati molti risultati interessanti nell’ultimo anno. Non pretendo di essere esaustivo in quello che mostrerò di seguito. Il mio obiettivo è attirare l’attenzione su alcune delle attuali direzioni di ricerca e su alcuni risultati promettenti.

Per semplificare le cose, distinguerei 4 direzioni principali:

  1. Spiegare l’uscita prodotta in base all’input (attribuzioni delle caratteristiche)
  2. Spiegare l’uscita prodotta in base ai dati di formazione
  3. Spiegare il ruolo delle singole…