L’iniziativa ‘Trovare neuroni in un pagliaio’ al MIT, Harvard e Northeastern University utilizza la tecnica di sondaggio sparso.

The MIT, Harvard, and Northeastern University initiative 'Finding needles in a haystack' uses the technique of sparse sampling.

È comune pensare alle reti neurali come “estrattori di caratteristiche” adattabili che imparano raffinando progressivamente rappresentazioni appropriate da input grezzi iniziali. Quindi, sorge la domanda: quali caratteristiche vengono rappresentate e in che modo? Per comprendere meglio come le caratteristiche di alto livello, interpretabili dall’uomo, vengono descritte nelle attivazioni neuronali degli LLM (Linguistic Language Models), un team di ricerca del Massachusetts Institute of Technology (MIT), dell’Università di Harvard (HU) e dell’Università di Northeastern (NEU) propone una tecnica chiamata “sparse probing”.

Di solito, i ricercatori addestrano un classificatore di base (una sonda) sulle attivazioni interne di un modello per prevedere una proprietà dell’input e poi esaminano la rete per vedere se e dove rappresenta la caratteristica in questione. Il metodo di “sparse probing” suggerito esamina oltre 100 variabili per individuare i neuroni rilevanti. Questo metodo supera i limiti dei precedenti metodi di indagine e getta luce sulla struttura complessa degli LLM. Limita il classificatore di indagine all’uso di non più di k neuroni nella sua previsione, dove k varia tra 1 e 256.

Il team utilizza tecniche di previsione ottimale e sparse all’avanguardia per dimostrare l’ottimalità di k-sparse feature selection e affrontare la confusione tra ranking e accuratezza della classificazione. Utilizzano la sparsità come un bias induttivo per garantire che le loro sonde possano mantenere una forte priorità di semplicità e individuare i neuroni chiave per un’esame dettagliato. Inoltre, la tecnica può generare un segnale più affidabile per capire se una caratteristica specifica è esplicitamente rappresentata e utilizzata a valle, poiché una carenza di capacità impedisce alle sonde di memorizzare i modelli di correlazione collegati alle caratteristiche di interesse.

Il gruppo di ricerca ha utilizzato gli LLM transformer autoregressivi nel loro esperimento, riportando i risultati della classificazione dopo aver addestrato sonde con diversi valori di k. Concludono quanto segue dallo studio:

  • I neuroni degli LLM contengono una ricchezza di struttura interpretabile e il “sparse probing” è un modo efficiente per individuarli (anche in sovrapposizione). Tuttavia, deve essere utilizzato con cautela e seguito da un’analisi se si vogliono trarre conclusioni rigorose.
  • Quando molti neuroni nel primo strato vengono attivati per n-grammi e modelli locali non correlati, le caratteristiche vengono codificate come combinazioni lineari sparse di neuroni polisemantici. Le statistiche dei pesi e le intuizioni da modelli giocattolo ci portano anche a concludere che il primo 25% dei layer completamente connessi utilizza estensivamente la sovrapposizione.
  • Anche se le conclusioni definitive sulla monosemanticità rimangono metodologicamente fuori dalla portata, i neuroni mono-semantici, specialmente nei livelli intermedi, codificano proprietà contestuali e linguistiche di livello superiore (come ad esempio is_python_code).
  • Mentre la sparsità della rappresentazione tende ad aumentare man mano che i modelli diventano più grandi, questa tendenza non vale in generale; alcune caratteristiche emergono con neuroni dedicati man mano che il modello diventa più grande, mentre altre si suddividono in caratteristiche più dettagliate man mano che il modello diventa più grande e molte altre non cambiano o arrivano piuttosto casualmente.

Alcuni vantaggi del “sparse probing”

  • Il potenziale rischio di confondere la qualità della classificazione con la qualità del ranking durante l’indagine sui singoli neuroni con le sonde viene affrontato ulteriormente dalla disponibilità di sonde con garanzie di ottimalità.
  • Inoltre, le sonde sparse sono progettate per avere una bassa capacità di archiviazione, quindi c’è meno motivo di preoccuparsi che la sonda possa imparare autonomamente il compito.
  • Per fare una sonda, sarà necessario un dataset supervisionato. Tuttavia, una volta costruito, può essere utilizzato per interpretare qualsiasi modello, aprendo la strada alla ricerca su temi come l’universalità dei circuiti appresi e l’ipotesi delle astrazioni naturali.
  • Al posto di fare valutazioni soggettive, può essere utilizzato per esaminare automaticamente come diverse scelte architettoniche influenzano la presenza di polisemanici e sovrapposizione.

Lo “sparse probing” ha i suoi limiti

  • Le inferenze forti possono essere fatte solo dai dati sperimentali dell’esperimento di sonda con un’ulteriore indagine secondaria dei neuroni identificati.
  • A causa della sua sensibilità ai dettagli di implementazione, alle anomalie, alle misspecificazioni e alle correlazioni fuorvianti nel dataset di sonda, la sonda fornisce solo una conoscenza limitata causale.
  • In particolare, in termini di interpretabilità, le sonde sparse non possono riconoscere caratteristiche costruite su più livelli o differenziare tra caratteristiche in sovrapposizione e caratteristiche rappresentate come l’unione di numerose caratteristiche distinte e più dettagliate.
  • Potrebbe essere necessario un “pruning” iterativo per identificare tutti i neuroni significativi se la sonda sparsa ne perde alcuni a causa della ridondanza nel dataset di sonda. L’uso di caratteristiche multi-token richiede un elaborazione specializzata, comunemente implementata utilizzando aggregazioni che potrebbero ulteriormente diluire la specificità del risultato.

Utilizzando una rivoluzionaria tecnica di sondaggio sparso, il nostro lavoro svela una ricchezza di strutture ricche e comprensibili dall’uomo nelle LLM. Gli scienziati pianificano di costruire un ampio repository di set di dati di sondaggio, eventualmente con l’aiuto dell’IA, che registrano dettagli particolarmente pertinenti al bias, alla giustizia, alla sicurezza e alla presa di decisioni ad alto rischio. Incoraggiano altri ricercatori a unirsi nell’esplorare questa “interpretabilità ambiziosa” e sostengono che un approccio empirico evocativo delle scienze naturali può essere più produttivo rispetto ai tipici cicli sperimentali di apprendimento automatico. Avere set di dati supervisionati vasti e diversificati permetterà una valutazione migliorata della prossima generazione di tecniche di interpretabilità non supervisionate che saranno necessarie per stare al passo con l’avanzamento dell’IA, oltre a automatizzare la valutazione dei nuovi modelli.