Come possono i Transformers gestire input più lunghi? Ricercatori di CMU e Google svelano un nuovo approccio (FIRE) un’interpolazione funzionale per la codifica della posizione relativa

Come i Transformers possono affrontare input più lunghi? I ricercatori di CMU e Google rivelano un nuovo approccio (FIRE) - un'interpolazione funzionale per la codifica della posizione relativa

I modelli di linguaggio basati su trasformatori hanno migliorato il campo dell’elaborazione del linguaggio naturale (NLP) negli ultimi anni. La loro capacità di comprendere e produrre testi simili a quelli umani ha portato a miglioramenti rivoluzionari in una serie di compiti NLP. Tuttavia, questi modelli presentano un grave difetto: quando vengono esposti a sequenze di input più lunghe rispetto a quelle incontrate durante l’addestramento, le loro prestazioni di solito diminuiscono sensibilmente. La necessità di trovare modi per aumentare la loro capacità di gestire contesti più lunghi nelle applicazioni del mondo reale è stata stimolata da questa limitazione.

Sebbene l’architettura del trasformatore sia in teoria in grado di gestire diverse durate di input, l’efficacia del modello nell’affrontare input più lunghi può essere limitata dalla codifica della posizione utilizzata durante l’addestramento. Per affrontare queste sfide, un team di ricercatori dell’Università Carnegie Mellon, di Google Research e di Google DeepMind ha introdotto un approccio unico chiamato Functional Interpolation for Relative Positional Encoding (FIRE). Lo scopo di FIRE è migliorare la capacità dei trasformatori di generalizzare su lunghezze di contesto più lunghe. Ciò è stato reso possibile da un nuovo metodo chiamato interpolazione progressiva con codifica posizionale relativa funzionale.

L’idea di base di FIRE è quella di fornire ai modelli dei trasformatori un mezzo più flessibile per comprendere i posizionamenti dei token all’interno di una sequenza. FIRE offre un meccanismo dinamico e apprendibile per codificare le informazioni sulla posizione al posto di uno schema di codifica posizionale predefinito. Questa strategia è importante perché consente al modello di modificare e alterare la sua comprensione della posizione in risposta al contesto e alla lunghezza della sequenza specifica che incontra.

La capacità di FIRE di descrivere concettualmente alcune delle tecniche di codifica di posizione relativa ampiamente utilizzate, come Kerple, Alibi e Relative Positional Encoding (RPE) di T5, è uno dei suoi principali vantaggi. Ciò indica che FIRE mantiene la compatibilità con i metodi e i modelli attuali, garantendo al contempo prestazioni migliorate.

Sono stati condotti diversi esperimenti per valutare le prestazioni dei modelli dotati di FIRE in situazioni in cui la comprensione del contesto prolungata è cruciale. Questa valutazione copre una serie di benchmark, come il linguaggio di modellazione a zero-shot e i problemi con input testuali lunghi. I modelli migliorati che utilizzano questo nuovo metodo hanno mostrato una migliore performance in termini di generalizzazione nella gestione di contesti più lunghi. Ciò implica che, quando vengono presentate sequenze più lunghe, le persone sono più in grado di comprendere e produrre testi significativi, una competenza estremamente utile in contesti pratici.

I ricercatori hanno riassunto le principali contribuzioni come segue.

  1. È stata introdotta una nuova tecnica di codifica posizionale relativa funzionale chiamata FIRE. FIRE può rappresentare metodi di codifica della posizione popolari, come Alibi, Kerple e RPE di T5, unendo questi metodi.
  1. FIRE supera le tecniche attuali in scenari di zero-shot e di fine-tuning su una varietà di set di dati e benchmark, mostrando prestazioni elevate nella generalizzazione della lunghezza. Supera persino la migliore base di confronto di 2.28 punti di perplessità sul problema di modellazione del linguaggio C4, dimostrando la sua utilità. Supera altre tecniche di oltre 1 punto in media nel test di testo lungo SCROLLS.
  1. La versatilità di FIRE per diverse attività è migliorata dalla sua capacità di catturare sia i bias di posizione locali che quelli anti-locali, come dimostrato dalla visualizzazione delle incapsulazioni della posizione apprese.

In conclusione, FIRE offre una grande soluzione a un problema persistente dei modelli dei trasformatori. La codifica di posizione relativa viene affrontata in modo flessibile e apprendibile, consentendo a questi modelli di continuare a operare ad alte prestazioni anche di fronte a sequenze di input di lunghezza precedentemente inaudita.