Una nuova ricerca sull’IA dalla Cina introduce RecycleGPT un modello generativo di linguaggio con una velocità di decodifica rapida del 1,4x mediante il riciclaggio degli stati di modello pre-generati senza eseguire l’intero modello in più passaggi

La ricerca cinese introduce RecycleGPT, un modello di intelligenza artificiale con una velocità di decodifica rapida grazie al riciclaggio degli stati di modello pre-generati.

Quando si crea testo soddisfacente in una vasta gamma di ambiti applicativi, i grandi modelli di linguaggio (LLM) hanno rivoluzionato la produzione di linguaggio naturale. Sebbene la scalabilità verso modelli più grandi (100B+ parametri) migliori notevolmente le prestazioni, la realtà è che il tempo necessario per completare una singola fase di decodifica aumenta con la dimensione del modello. I modelli più grandi introducono un calcolo massiccio e hanno una maggiore impronta di memoria, entrambi contribuiscono in modo significativo alla lenta inferenza dei LLM. I requisiti di memoria per la cache KV e i parametri del modello addestrato e lo stato temporaneo necessario per l’inferenza sono considerevoli.

La generazione di token nei LLM è lenta a causa della lenta velocità di accesso alla memoria del sistema. Per quanto riguarda il tempo necessario per produrre ogni token, correla approssimativamente al numero totale di parametri del modello.

Sono disponibili diversi lavori per rendere l’inferenza più efficace. Il focus fondamentale di questi studi è quello di ridurre al minimo l’utilizzo della memoria e alleviare la congestione del traffico di memoria. Uno studio recente del National Supercomputing Center di Wuxi e dell’Università di Tsinghua indaga tecniche di decodifica efficienti per massimizzare la generazione di token mantenendo costante il budget di elaborazione della memoria. Per ottenere una decodifica rapida, introducono una nuova architettura di modello di linguaggio chiamata RecycleGPT, che può riutilizzare stati del modello creati in precedenza.

La loro strategia prevede di modificare il modello di linguaggio originale incorporando un nuovo modulo riciclabile che predice i prossimi token basandosi sugli stati generati in precedenza senza eseguire ripetutamente l’intero modello. Il modulo riciclabile è composto da diversi livelli basati su trasformatori, che insieme consentono di ottenere rappresentazioni migliori durante le previsioni. RecycleGPT può essere combinato con la tecnica di decodifica convenzionale in diversi modi per l’utilizzo durante l’inferenza. Questo studio li utilizza ciclicamente (ovvero la produzione di ogni due token comporta l’esecuzione dell’intero modello una volta), lasciando l’indagine di altre modalità per future ricerche. Lo scopo del modulo riciclabile era quello di accelerare il processo di decodifica, ed è riuscito a farlo perché, nonostante la sua architettura semplicistica, il modulo è stato in grado di rappresentare efficientemente le informazioni contestuali e generare previsioni corrette.

Il team ha messo alla prova RecycleGPT rispetto a diversi modelli di linguaggio di riferimento nel settore. I risultati mostrano che il modello è 1,4 volte più veloce rispetto ai modelli di linguaggio all’avanguardia con solo il 15% in più di parametri, mantenendo al contempo prestazioni simili su attività successive. I ricercatori hanno in programma di presentare a breve modelli di RecycleGPT di diverse dimensioni.

Grazie alla sua adattabilità e scalabilità, la nostra tecnica di riciclaggio può essere utilizzata con vari modelli pre-addestrati. Inoltre, la tecnica di creazione e la dimensione dei moduli riciclabili possono essere modificati per raggiungere le prestazioni di accelerazione necessarie.