I ricercatori dell’UCI e dell’Università di Zhejiang introducono l’accelerazione di modelli di linguaggio di grandi dimensioni senza perdita di dati tramite decodifica auto-speculativa utilizzando fasi di stesura e verifica.

I ricercatori dell'UCI e dell'Università di Zhejiang introducono l'accelerazione di modelli di linguaggio senza perdita di dati tramite decodifica auto-speculativa.

I modelli di linguaggio di grandi dimensioni (LLM) basati su trasformatori, come GPT, PaLM e LLaMA, sono diventati ampiamente utilizzati in una varietà di applicazioni del mondo reale. Questi modelli sono stati applicati a una serie di compiti, tra cui produzione di testo, traduzione e interpretazione del linguaggio naturale. Tuttavia, i costi elevati di inferenza di questi modelli, soprattutto in situazioni in cui è importante la bassa latenza, sono una preoccupazione importante. Il metodo di decodifica autoregressiva utilizzato da questi modelli è la principale causa dei costi elevati di inferenza. Poiché ogni token di output viene prodotto in modo sequenziale durante la decodifica autoregressiva, ci sono molte chiamate a Transformer. La larghezza di banda di memoria di ogni chiamata a Transformer è limitata, il che porta a un calcolo inefficiente e a tempi di esecuzione prolungati.

Per velocizzare il processo di inferenza dei modelli di linguaggio di grandi dimensioni (LLM), uno studio recente ha introdotto un metodo unico chiamato decodifica auto-speculativa che non richiede un modello ausiliario. Questo approccio affronta il problema di produrre l’inferenza più velocemente preservando la qualità dell’output. Si caratterizza per una procedura a due fasi che combina il drafting e la verifica.

  1. Fase di drafting: l’obiettivo della fase di drafting è quello di produrre token di bozza più velocemente, anche se sono marginalmente di qualità peggiore rispetto ai token prodotti utilizzando il metodo autoregressivo convenzionale. Il metodo evita alcune strati intermedi durante il drafting per raggiungere questo obiettivo. Questi strati intermedi in LLM spesso raffinano l’output, ma richiedono anche molto tempo e risorse durante l’inferenza.
  1. Fase di verifica: la tecnica genera i token di output di bozza nella fase di drafting e li convalida in un singolo passaggio in avanti utilizzando il LLM originale e non alterato. Utilizzando il metodo di decodifica autoregressiva convenzionale, il LLM avrebbe prodotto lo stesso risultato finale, che viene garantito da questo passaggio di verifica. Pertanto, anche se la fase di drafting genera token più velocemente, la qualità del prodotto finale viene preservata.

La decodifica auto-speculativa non richiede ulteriore addestramento di reti neurali, che è uno dei suoi principali vantaggi. L’addestramento di modelli ausiliari o le modifiche significative all’architettura del LLM, che possono essere complesse e richiedere molte risorse, sono componenti comuni dei metodi esistenti per una inferenza più rapida. La decodifica auto-speculativa, invece, è un approccio “plug-and-play” che può essere aggiunto ai LLM esistenti senza ulteriori addestramenti o modifiche del modello.

La ricerca ha fornito supporto empirico all’efficacia della decodifica auto-speculativa. I risultati di benchmark sono mostrati utilizzando LLaMA-2 e i suoi modelli migliorati. Sulla base di questi benchmark, il metodo di decodifica auto-speculativa può decodificare i dati fino a 1,73 volte più velocemente rispetto al metodo di decodifica autoregressiva convenzionale. Ciò ha il vantaggio importante di rendere il processo di inferenza circa due volte più rapido preservando la qualità dell’output, il che è importante in situazioni in cui la latenza è un problema.

In conclusione, la decodifica auto-speculativa è un metodo rivoluzionario che migliora il modo in cui i modelli di linguaggio di grandi dimensioni inferiscono le informazioni. Lo fa stabilendo un processo a due fasi di drafting e verifica, scegliendo quali strati saltare durante la fase di drafting per generare token più velocemente e verificando la qualità dell’output durante la fase di verifica. Questo metodo accelera l’inferenza del LLM senza aggiungere alcun ulteriore onere di memoria o requisiti di addestramento per le reti neurali.