Ricercatori del MIT e del CUHK propongono LongLoRA (Long Low-Rank Adaptation), un efficiente approccio di adattamento AI per modelli di linguaggio a lungo contesto (LLM).

Adaptation) un innovativo approccio di adattamento AI per modelli di linguaggio a lungo contesto (LLM).

L’introduzione dei modelli linguistici di grandi dimensioni (LLM) ha portato un significativo livello di progresso nel campo dell’Intelligenza Artificiale. Basati sui concetti di Elaborazione del Linguaggio Naturale (NLP), Comprensione del Linguaggio Naturale (NLU) e Generazione del Linguaggio Naturale (NLG), i LLM hanno conquistato il mondo con le loro incredibili capacità. I modelli ben noti, come LLaMA e LLaMA2, sono stati strumenti molto efficaci per comprendere e produrre il linguaggio naturale.

Tuttavia, hanno delle restrizioni, come una dimensione massima del contesto di 2048 token per LLaMA e 4096 token per LLaMA2, rispettivamente. A causa di questa restrizione, faticano nell’eseguire compiti che richiedono la comprensione di documenti o query lunghe. L’addestramento o il perfezionamento dei LLM con sequenze più lunghe è un metodo per estendere la finestra di contesto, ma ciò comporta difficoltà di calcolo e può essere proibitivamente costoso in termini di risorse.

L’adattamento a basso rango (LoRA) è un metodo semplice per estendere la finestra di contesto. LoRA utilizza matrici a basso rango, che sono efficienti dal punto di vista computazionale e limitano il numero di parametri addestrabili, per modificare i livelli di proiezione lineare nei blocchi di auto-attenzione. Tuttavia, l’addestramento di modelli a lungo contesto con una semplice adattamento a basso rango non sembra essere molto efficace, secondo studi empirici. A causa del meccanismo tipico di auto-attenzione, produce livelli significativi di confusione per le espansioni di contesto estese e perde efficacia all’aumentare della dimensione del contesto.

Per superare le limitazioni, un team di ricercatori ha introdotto LongLoRA, un efficace approccio di fine-tuning per estendere le dimensioni del contesto dei modelli linguistici di grandi dimensioni pre-addestrati senza incorrere in costi computazionali eccessivi. LongLoRA è stato sviluppato per aumentare in modo efficace la finestra di contesto dei LLM pre-addestrati come LLaMA2. Accelera il processo di espansione del contesto dei LLM in due modi importanti.

In primo luogo, LongLoRA rende possibile un’estensione efficace del contesto durante il fine-tuning utilizzando l’attenzione locale sparsa (S2-Attn). Sebbene sia ancora necessaria un’attenzione globale densa affinché i LLM si comportino bene durante l’inferenza, il processo di fine-tuning può essere eseguito in modo efficace e veloce utilizzando un’attenzione locale sparssa. Rispetto al fine-tuning con tecniche di attenzione convenzionali, S2-Attn consente un’estensione del contesto e comporta significativi risparmi computazionali, in quanto può essere facilmente integrato ed è una parte opzionale dell’inferenza in quanto richiede solo due righe di codice per essere implementato durante l’addestramento.

In secondo luogo, LongLoRA ripensa la procedura di fine-tuning con un’attenzione particolare alle tecniche di espansione del contesto che sono efficaci in termini di parametri. Il team ha scoperto che LoRA si comporta in modo eccellente per l’estensione del contesto, a condizione che il modello abbia strati di embedding e normalizzazione addestrabili. Questa consapevolezza è fondamentale per estendere con successo il contesto senza aumentare in modo sostanziale il carico di calcolo.

Con modelli LLaMA2 che vanno da 7B/13B a 70B, LongLoRA ha presentato notevoli risultati empirici per una varietà di compiti. Su un singolo computer GPU 8x A100, il metodo aumenta il contesto di questi modelli da 4k token a 100k token per LLaMA2 7B o fino a 32k token per LLaMA2 70B. Questa estensione del contesto viene effettuata mantenendo le strutture originali del modello, rendendolo compatibile con metodi e strumenti già in uso come FlashAttention-2.

È stato sviluppato anche un dataset chiamato LongQA per il fine-tuning supervisionato al fine di facilitare l’effettivo utilizzo di LongLoRA. In questo dataset si possono trovare più di 3k coppie domanda-risposta con contesti estesi. La disponibilità di questo dataset amplia l’utilità di LongLoRA per accademici e professionisti che desiderano ampliare le capacità dei LLM.