Questo articolo sull’IA propone COLT5 un nuovo modello per ingressi a lungo raggio che utilizza calcoli condizionali per una qualità superiore e una velocità più rapida
This article on AI proposes COLT5, a new model for long-range inputs that uses conditional computations for superior quality and faster speed.
I modelli di machine learning sono necessari per codificare testi di lunghezza estesa per vari compiti di elaborazione del linguaggio naturale, inclusa la sintesi o la risposta a domande su documenti lunghi. Poiché il costo dell’attenzione aumenta quadraticamente con la lunghezza dell’input e i layer di feedforward e proiezione devono essere applicati a ogni token di input, l’elaborazione di testi lunghi utilizzando un modello Transformer è computazionalmente costosa. Negli ultimi anni sono state messe a punto diverse strategie di “Transformer efficienti” che riducono il costo del meccanismo di attenzione per input di lunghezza estesa. Tuttavia, i layer di feedforward e proiezione – in particolare per modelli più grandi – portano il grosso del carico di calcolo e possono rendere impossibile analizzare input di lunghezza estesa. Questo studio introduce COLT5, una nuova famiglia di modelli che, integrando miglioramenti architetturali sia per i layer di attenzione che per quelli di feedforward, si basano su LONGT5 per consentire una rapida elaborazione di input estesi.
La base di COLT5 è la comprensione che alcuni token sono più significativi di altri e che assegnando maggiori risorse ai token importanti è possibile ottenere una maggiore qualità a un costo ridotto. Ad esempio, COLT5 separa ogni layer di feedforward e ogni layer di attenzione in un ramo leggero applicato a tutti i token e un ramo pesante utilizzato per selezionare i token significativi scelti appositamente per quell’input e componente. Rispetto a LONGT5 regolare, la dimensione nascosta del ramo di feedforward leggero è inferiore a quella del ramo di feedforward pesante. Inoltre, la percentuale di token significativi diminuirà con la lunghezza del documento, consentendo una gestione agevole di testi lunghi.
Una panoramica del meccanismo condizionale di COLT5 è mostrata nella Figura 1. L’architettura LONGT5 ha subito ulteriori due cambiamenti grazie a COLT5. Il ramo di attenzione pesante esegue un’attenzione completa su un diverso insieme di token significativi scelti attentamente, mentre il ramo di attenzione leggera ha meno testine e applica un’attenzione locale. La multi-query cross-attention, introdotta da COLT5, accelera notevolmente l’inferenza. Inoltre, COLT5 utilizza il target di pre-training UL2, che consente un apprendimento in contesto su input estesi.
- Una nuova ricerca sull’intelligenza artificiale da Stanford mostra come le spiegazioni possano ridurre la eccessiva affidabilità dei sistemi di intelligenza artificiale durante la presa di decisioni
- Meta AI presenta CM3leon il game-changer multimodale che offre la generazione di testo-immagine all’avanguardia con un’efficienza di calcolo senza precedenti.
- NLP moderna Una panoramica dettagliata. Parte 1 Transformers
I ricercatori di Google Research suggeriscono COLT5, un nuovo modello per input distanti che utilizza il calcolo condizionale per una migliore performance e una rapida elaborazione. Dimostrano che COLT5 supera LONGT5 sui dataset di sintesi arXiv e TriviaQA, migliorando LONGT5 e raggiungendo SOTA sul benchmark SCROLLS. Con una scalabilità “focus” dei token inferiore a quella lineare, COLT5 migliora notevolmente la qualità e le prestazioni per i lavori con input di lunghezza estesa. COLT5 esegue anche un’intonazione e un’inferenza molto più veloci con la stessa o superiore qualità del modello. I layer di feedforward e attenzione leggeri in COLT5 si applicano a tutto l’input, mentre i rami pesanti influenzano solo una selezione di token significativi scelti da un router appreso. Dimostrano che COLT5 supera LONGT5 su vari dataset di input lunghi a tutte le velocità e può utilizzare input estremamente lunghi fino a 64k token in modo efficace ed efficiente.