Questo articolo sull’IA propone COLT5 un nuovo modello per ingressi a lungo raggio che utilizza calcoli condizionali per una qualità superiore e una velocità più rapida

This article on AI proposes COLT5, a new model for long-range inputs that uses conditional computations for superior quality and faster speed.

I modelli di machine learning sono necessari per codificare testi di lunghezza estesa per vari compiti di elaborazione del linguaggio naturale, inclusa la sintesi o la risposta a domande su documenti lunghi. Poiché il costo dell’attenzione aumenta quadraticamente con la lunghezza dell’input e i layer di feedforward e proiezione devono essere applicati a ogni token di input, l’elaborazione di testi lunghi utilizzando un modello Transformer è computazionalmente costosa. Negli ultimi anni sono state messe a punto diverse strategie di “Transformer efficienti” che riducono il costo del meccanismo di attenzione per input di lunghezza estesa. Tuttavia, i layer di feedforward e proiezione – in particolare per modelli più grandi – portano il grosso del carico di calcolo e possono rendere impossibile analizzare input di lunghezza estesa. Questo studio introduce COLT5, una nuova famiglia di modelli che, integrando miglioramenti architetturali sia per i layer di attenzione che per quelli di feedforward, si basano su LONGT5 per consentire una rapida elaborazione di input estesi.

La base di COLT5 è la comprensione che alcuni token sono più significativi di altri e che assegnando maggiori risorse ai token importanti è possibile ottenere una maggiore qualità a un costo ridotto. Ad esempio, COLT5 separa ogni layer di feedforward e ogni layer di attenzione in un ramo leggero applicato a tutti i token e un ramo pesante utilizzato per selezionare i token significativi scelti appositamente per quell’input e componente. Rispetto a LONGT5 regolare, la dimensione nascosta del ramo di feedforward leggero è inferiore a quella del ramo di feedforward pesante. Inoltre, la percentuale di token significativi diminuirà con la lunghezza del documento, consentendo una gestione agevole di testi lunghi.

Figura 1: Una panoramica di un layer di Transformer COLT5 a calcolo condizionale.

Una panoramica del meccanismo condizionale di COLT5 è mostrata nella Figura 1. L’architettura LONGT5 ha subito ulteriori due cambiamenti grazie a COLT5. Il ramo di attenzione pesante esegue un’attenzione completa su un diverso insieme di token significativi scelti attentamente, mentre il ramo di attenzione leggera ha meno testine e applica un’attenzione locale. La multi-query cross-attention, introdotta da COLT5, accelera notevolmente l’inferenza. Inoltre, COLT5 utilizza il target di pre-training UL2, che consente un apprendimento in contesto su input estesi.

I ricercatori di Google Research suggeriscono COLT5, un nuovo modello per input distanti che utilizza il calcolo condizionale per una migliore performance e una rapida elaborazione. Dimostrano che COLT5 supera LONGT5 sui dataset di sintesi arXiv e TriviaQA, migliorando LONGT5 e raggiungendo SOTA sul benchmark SCROLLS. Con una scalabilità “focus” dei token inferiore a quella lineare, COLT5 migliora notevolmente la qualità e le prestazioni per i lavori con input di lunghezza estesa. COLT5 esegue anche un’intonazione e un’inferenza molto più veloci con la stessa o superiore qualità del modello. I layer di feedforward e attenzione leggeri in COLT5 si applicano a tutto l’input, mentre i rami pesanti influenzano solo una selezione di token significativi scelti da un router appreso. Dimostrano che COLT5 supera LONGT5 su vari dataset di input lunghi a tutte le velocità e può utilizzare input estremamente lunghi fino a 64k token in modo efficace ed efficiente.