Un nuovo approccio di ricerca sull’Intelligenza Artificiale (IA) presenta l’apprendimento basato su prompt in contesto come un problema di apprendimento algoritmico da una prospettiva statistica.

A new AI research approach presents context-based prompt learning as a statistical perspective on algorithmic learning.

L’apprendimento contestuale è un paradigma recente in cui un grande modello di linguaggio (LLM) osserva un’istanza di test e alcuni esempi di addestramento come input e decodifica direttamente l’output senza alcuna modifica dei suoi parametri. Questo addestramento implicito si contrappone all’addestramento usuale in cui i pesi vengono modificati in base agli esempi.

Fonte: https://arxiv.org/pdf/2301.07067.pdf

Ecco la domanda su perché l’apprendimento contestuale possa essere vantaggioso. Si può supporre di avere due compiti di regressione che si vogliono modellare, ma l’unico limite è che si può utilizzare solo un modello per adattarsi a entrambi i compiti. Qui l’apprendimento contestuale è utile perché può imparare gli algoritmi di regressione per compito, il che significa che il modello utilizzerà regressioni separate adattate per diversi insiemi di input.

Nel paper “Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning”, hanno formalizzato il problema dell’apprendimento contestuale come un problema di apprendimento algoritmi. Hanno utilizzato un transformer come algoritmo di apprendimento che può essere specializzato mediante l’addestramento per implementare un altro algoritmo target durante l’inferenza. In questo paper, hanno esplorato gli aspetti statistici dell’apprendimento contestuale attraverso i transformer e hanno effettuato valutazioni numeriche per verificare le previsioni teoriche.

In questo lavoro, hanno investigato due scenari, nel primo i prompt sono formati da una sequenza di coppie i.i.d (input, label), mentre nell’altro la sequenza è una traiettoria di un sistema dinamico (lo stato successivo dipende dallo stato precedente: xm+1 = f(xm) + rumore).

Ora viene la domanda, come addestriamo un modello del genere?

Nella fase di addestramento di ICL, T compiti sono associati a una distribuzione di dati {Dt}t=1T. Si campionano in modo indipendente sequenze di addestramento St dalla sua distribuzione corrispondente per ogni compito. Poi si passa una sottosequenza di St e un valore x dalla sequenza St per fare una previsione su x. Qui è come il framework di meta-apprendimento. Dopo la previsione, si minimizza la perdita. L’intuizione dietro l’addestramento di ICL può essere interpretata come la ricerca dell’algoritmo ottimale per adattarsi al compito in questione.

Successivamente, per ottenere limiti di generalizzazione su ICL, hanno preso in prestito alcune condizioni di stabilità dalla letteratura sulla stabilità degli algoritmi. In ICL, un esempio di addestramento nel prompt influenza le decisioni future degli algoritmi da quel punto in poi. Quindi, per gestire queste perturbazioni di input, era necessario imporre alcune condizioni sull’input. Puoi leggere [paper] per ulteriori dettagli. Figura 7 mostra i risultati degli esperimenti condotti per valutare la stabilità dell’algoritmo di apprendimento (in questo caso il Transformer).

Fonte: https://arxiv.org/pdf/2301.07067.pdf

RMTL è il rischio (~errore) nell’apprendimento multi-task. Una delle intuizioni dal limite derivato è che l’errore di generalizzazione di ICL può essere eliminato aumentando la dimensione del campione n o il numero di sequenze M per compito. Gli stessi risultati possono essere estesi anche a sistemi dinamici stabili.

Fonte: https://arxiv.org/pdf/2301.07067.pdf
Fonte: https://arxiv.org/pdf/2301.07067.pdf

Ora vediamo la verifica di questi limiti utilizzando valutazioni numeriche.

Viene utilizzata l’architettura GPT-2 che contiene 12 livelli, 8 testate di attenzione e un embedding di dimensione 256 per tutti gli esperimenti. Gli esperimenti vengono eseguiti su regressioni e dinamiche lineari.

  1. Regressione lineare: In entrambe le figure (2(a) e 2(b)), i risultati dell’apprendimento in contesto (Rosso) superano i risultati del metodo dei minimi quadrati (Verde) e sono perfettamente allineati con la soluzione ridge/weighted ottimale (Tratteggiato nero). Ciò fornisce evidenza della capacità di selezione automatizzata del modello dei transformer apprendendo le priorità dei compiti.
  2. Sistemi dinamici parzialmente osservati: Nelle figure (2(c) e 6), i risultati mostrano che l’apprendimento in contesto supera i risultati del metodo dei minimi quadrati per quasi tutti gli ordini H=1,2,3,4 (dove H è la dimensione della finestra che scorre sulla sequenza di stati di input per generare l’input al modello, simile alla lunghezza delle sottosequenze)

In conclusione, hanno dimostrato con successo che i risultati sperimentali si allineano alle previsioni teoriche. E per la direzione futura dei lavori, sarebbe interessante esplorare diverse domande interessanti.

(1) I limiti proposti sono per il rischio MTL. Come possono essere controllati i limiti per i singoli compiti?

(2) I medesimi risultati dei sistemi dinamici completamente osservati possono essere estesi a sistemi dinamici più generali come l’apprendimento per rinforzo?

(3) Dall’osservazione, si è concluso che il rischio di trasferimento dipende solo dai compiti MTL e dalla loro complessità ed è indipendente dalla complessità del modello, quindi sarebbe interessante caratterizzare questo bias induttivo e quale tipo di algoritmo viene appreso dal transformer.