Macchina dei sogni di IA snella e cattiva DejaVu taglia i costi della chiacchierata di IA senza perdere la sua astuzia

Macchina dei sogni di IA snella e cattiva DejaVu riduce i costi delle conversazioni di IA senza sacrificare l'ingegnosità

Allenare un grande modello di linguaggio richiede notevoli risorse computazionali, tra cui potenti GPU e TPU, nonché hardware specializzato come acceleratori AI. Queste risorse possono risultare costose da acquisire e mantenere. Raccogliere e preparare le immense quantità di dati necessari per addestrare grandi modelli di linguaggio può essere un processo costoso e lungo. Set di dati di alta qualità, diversi e rappresentativi sono essenziali per le prestazioni del modello.

L’addestramento di grandi modelli di linguaggio può richiedere settimane o addirittura mesi, a seconda della dimensione e della complessità del modello. La sparsità è un approccio naturale per ridurre questo costo. I metodi esistenti richiedono un riallenamento costoso o non offrono un’accelerazione del tempo effettivo sulle moderne apparecchiature. I ricercatori hanno sviluppato un nuovo insieme dipendente dall’input di testa di attenzione e parametri MLP che producono circa lo stesso output dei modelli densi con un determinato input per un periodo di tempo più lungo.

Essi ipotizzano che esista una sparsità contestuale, e quando viene accuratamente predetta, può velocizzare l’inferenza di LLM nel tempo effettivo senza compromettere la qualità o l’abilità di apprendimento in contesto di LLM. Propongono “DEJAVU”, un sistema che utilizza un algoritmo a basso costo per prevedere la sparsità contestuale al volo dato l’input di ciascun layer, insieme a un’implementazione asincrona e hardware che accelera l’inferenza di LLM.

Anche se la sparsità contestuale esiste, è difficile prevedere la sparsità per un determinato input in anticipo. Verificare se tale sparsità contestuale esista non è banale e la verifica ingenua può risultare proibitivamente costosa. Potrebbe anche essere difficile ottenere un’accelerazione end-to-end del tempo effettivo. Il team ha verificato l’esistenza di tale sparsità con un approccio semplice. La sparsità contestuale dipende non solo da singoli token di input, ma anche dalle loro interazioni. Solo con incorporamenti di token con informazioni contestuali sufficienti, predicono accuratamente la sparsità.

La sparsità contestuale nel blocco MLP può essere identificata dopo il calcolo dell’attivazione. Tuttavia, questo dimostra solo l’esistenza di una sparsità contestuale, ma non offre vantaggi in termini di efficienza. È necessaria una previsione rapida e precisa per sfruttare la sparsità contestuale per un’efficienza end-to-end.

DEJAVU utilizza predittori di previsione per evitare i costi di previsione. Dato l’input al layer di attenzione al blocco k, predicono in modo asincrono la sparsità contestuale per l’MLP al blocco k e forniscono le informazioni all’MLP al blocco k. Quindi, prevedono la sparsità per la testa di attenzione al layer successivo. Affermano anche che la sparsità contestuale può essere predetta con precisione utilizzando algoritmi di apprendimento leggeri.

I ricercatori hanno scoperto che DEJAVU raggiunge una riduzione di oltre due volte nella latenza di generazione dei token rispetto alla state-of-the-art FasterTransformer e oltre sei volte rispetto a Hugging Face senza perdita di accuratezza. Il predittore sparso MLP non introduce perdita di accuratezza sia nelle attività a zero-shot che nella modellizzazione del linguaggio. Nell’addestramento del predittore sparso MLP, hanno osservato che il predittore sparso raggiunge un’alta accuratezza di convalida.