Svelare i misteri dei grandi modelli di linguaggio un approfondimento sulle funzioni di influenza e la loro scalabilità

Rivelare i misteri dei grandi modelli di linguaggio approfondimento sulle funzioni di influenza e scalabilità

I modelli di linguaggio di grandi dimensioni (LLM) hanno accelerato lo sviluppo in vari campi del mondo reale e hanno mostrato abilità emergenti inaspettate, tra cui apprendimento nel contesto e ragionamento logico. Tuttavia, questo sviluppo presenta diversi pericoli, dalle preoccupazioni a breve termine come i pregiudizi sociali, le perdite di dati e la disinformazione ai pericoli a lungo termine rappresentati dai potenti sistemi di intelligenza artificiale. In relazione sia alla scala che al grado di ottimizzazione, è stato dimostrato che i LLM cambiano in vari aspetti psicologici e comportamentali. Per affrontare questi pericoli, è necessario comprendere il funzionamento dei modelli.

Un LLM si limita a ripetere (o combinare) passaggi dall’insieme di addestramento quando produce informazioni che sa essere false, risolve correttamente problemi aritmetici o di programmazione o chiede all’utente di non spegnerlo? O sta creando nuove connessioni tra le sue risorse di conoscenza mentre costruisce un modello globale completo? Diverse risposte a queste domande influenzeranno significativamente le previsioni sullo sviluppo delle capacità dell’intelligenza artificiale e le strategie per integrare i sistemi di intelligenza artificiale con le preferenze umane. L’ingegnerizzazione inversa dettagliata della circuiteria di un modello è un metodo bottom-up per acquisire comprensione.

Sono stati scoperti meccanismi di interpretabilità meccanicistica come le testine di induzione, un processo per replicare il comportamento, e altri meccanismi che consentono al modello di apprendere sovrapposizioni di caratteristiche non interpretabili. I ricercatori hanno proposto tecniche per implementare reti Hopfield, pesi rapidi, regressione sparsa, discesa del gradiente, automi o programmi informatici semplici tramite trasformatori. Anche se queste valutazioni forniscono informazioni interessanti, spesso vengono effettuate su sistemi piccoli e semplificati. Probabilmente sarebbe necessaria un’ingegnerizzazione inversa estensiva di un calcolo complicato che coinvolge miliardi di parametri per collegarli ai fenomeni di alto livello che ci affascinano dei LLM.

Come alternativa, potrebbero partire dalle relazioni input-output del modello e ingrandire i dettagli. Il vantaggio di ciò è che è possibile utilizzare modelli di grandi dimensioni per esplorare direttamente fenomeni di interesse. Purtroppo, prendere decisioni importanti basate su campioni e probabilità del modello è sfidante poiché ogni risultato può essere coerente con una vasta gamma di processi di apprendimento, dalla memorizzazione semplice alla risoluzione originale dei problemi. Vanno oltre le possibilità e i campioni di base per approfondire la metodologia top-down. Cercano di quantificare il controcattivo: come si comporterebbe il modello se l’insieme di addestramento includesse una sequenza specifica? Le funzioni di influenza, un metodo statistico tradizionale incorporato nell’apprendimento profondo, affrontano questa preoccupazione di controcattivo. Le funzioni di influenza cercano specificamente di avvicinarsi a una piccola rappresentazione di questo controcattivo. Ricercatori dell’Università di Toronto e del Vector Institute stanno analizzando le generalizzazioni dei modelli di linguaggio di grandi dimensioni utilizzando le funzioni di influenza.

Ritengono che questa sia una fonte di evidenza cruciale per quasi ogni comportamento di alto livello che desiderano comprendere; identificando le sequenze di addestramento che hanno un impatto significativo, possono distinguere tra diverse spiegazioni su come è stato prodotto l’output e far luce sui tipi di strutture che sono o non sono generalizzate dagli esempi di addestramento. Sebbene le funzioni di influenza abbiano fornito alcune intuizioni a reti neurali di piccola scala, scalarele a modelli di grandi dimensioni è complicato. Calcolare un prodotto inverso-Hessian-vettore (IHVP) è uno dei collo di bottiglia computazionali; questo comporta generalmente l’esecuzione di un risolutore di sistemi lineari iterativo per potenzialmente migliaia di passi, ognuno paragonabile al costo di un calcolo del gradiente.

Un altro collo di bottiglia è il requisito di calcolare i gradienti di tutte le istanze di addestramento prese in considerazione, che solitamente devono essere effettuati in modo indipendente per ogni query di influenza. Fino ad oggi, i transformer di visione con 300 milioni di parametri sono stati i modelli più grandi a cui sono state applicate le funzioni di influenza. Offrono un metodo per scalare i calcoli delle funzioni di influenza su modelli di linguaggio di grandi dimensioni (vengono esaminati fino a 52 miliardi di parametri). La loro strategia si basa su tecniche all’avanguardia per il calcolo del gradiente di addestramento e il calcolo dell’IHVP, i due collo di bottiglia computazionali precedentemente menzionati.

Elencheranno alcune delle loro conclusioni chiave come segue:

1. Nonostante sia notevolmente più veloce, EK-FAC è competitivo con il metodo più consolidato di stima dell’influenza, LiSSA, per quanto riguarda l’accuratezza.

2. La distribuzione dell’influenza ha una coda pronunciata e la coda della distribuzione segue generalmente una legge di potenza. Invece di concentrarsi su un piccolo numero di sequenze, l’effetto è distribuito in molte di queste, suggerendo che i comportamenti tipici del modello non sono il risultato diretto della memorizzazione di un piccolo numero di sequenze.

3. Rispetto ai modelli più piccoli, i modelli più grandi generalizzano costantemente con un grado di astrazione più elevato. Esempi di ciò sono il gioco di ruolo, la programmazione, il ragionamento matematico e la generalizzazione tra le lingue.

4. L’influenza è generalmente distribuita in modo uniforme tra i vari livelli della rete. Tuttavia, diversi livelli mostrano schemi di generalizzazione distinti, con i livelli intermedi che si concentrano su modelli più astratti mentre i livelli superiori e inferiori sono più strettamente correlati ai token.

5. Le funzioni di effetto dimostrano una sensibilità inaspettata all’ordine delle parole nonostante i modelli di generalizzazione avanzati visti complessivamente. In particolare, le sequenze di addestramento hanno un impatto significativo solo quando le parole associate alla traccia precedono quelle associate al completamento.

6. Esempi o descrizioni di comportamenti comparabili nell’insieme di addestramento hanno avuto il maggiore effetto sul comportamento di gioco di ruolo, dimostrando che l’imitazione, piuttosto che una pianificazione complessa, è la causa dei comportamenti.