Questa ricerca di intelligenza artificiale introduce Atom una tecnica di quantizzazione a basso bit per un servizio efficiente e accurato di modelli di lingua (LLM) di grandi dimensioni.

Intelligenza Artificiale Atom, la nuova tecnica di quantizzazione a basso bit per i modelli di lingua di grande dimensione, garantisce prestazioni efficienti ed accurate.

I modelli di grande dimensione linguistica sono l’introduzione più recente nella comunità dell’intelligenza artificiale, che ha fatto impazzire il mondo. Questi modelli, grazie alle loro incredibili capacità, vengono utilizzati da tutti, sia ricercatori, scienziati o persino studenti. Con il loro potenziale di imitazione umana per rispondere alle domande, generare contenuti, riassumere testi, completare codici e così via, questi modelli hanno fatto molta strada.

I modelli di grande dimensione linguistica sono necessari in numerosi settori, tra cui l’analisi del sentiment, gli assistenti virtuali intelligenti e la creazione di contenuti. Questi modelli utilizzano molte risorse di calcolo e per questo sono sfruttate efficacemente le risorse delle GPU per aumentare la capacità di elaborazione. Ciò viene fatto suddividendo diverse richieste degli utenti e, per migliorare ulteriormente l’efficienza della memoria e della capacità di calcolo, si ricorre a tecniche di quantizzazione dei modelli di grande dimensione linguistica. Tuttavia, le attuali tecniche di quantizzazione, come la quantizzazione dei pesi e delle attivazioni a 8 bit, sono in realtà progettate per sfruttare pienamente le potenzialità delle nuove GPU. Poiché gli operatori di interi su queste GPU sono a 4 bit, le attuali tecniche di quantizzazione non sono progettate per garantire la massima efficienza.

Per affrontare questo problema, un team di ricercatori ha introdotto Atom, un nuovo metodo che massimizza la capacità di elaborazione dei modelli di grande dimensione linguistica. Atom è una tecnica di quantizzazione a basso bit creata per aumentare in modo significativo la capacità di elaborazione senza sacrificare la precisione. Utilizza operatori e quantizzazione a basso bit per ridurre l’utilizzo della memoria al fine di raggiungere questo obiettivo. Utilizza una particolare combinazione di quantizzazione a grana fine e a precisione mista per mantenere un’eccellente precisione.

Il team ha dichiarato che Atom è stato valutato in termini di configurazioni di quantizzazione dei pesi e delle attivazioni a 4 bit durante il servizio. I risultati hanno dimostrato che Atom è in grado di mantenere la latenza all’interno dello stesso intervallo di obiettivo, migliorando contemporaneamente la capacità di elaborazione end-to-end fino a 7,73 volte rispetto all’approccio tipico a virgola mobile a 16 bit (FP16) e 2,53 volte rispetto alla quantizzazione intera a 8 bit (INT8). Ciò rende Atom una soluzione valida per far fronte alla crescente domanda dei loro servizi perché mantiene il livello desiderato di tempo di risposta e aumenta notevolmente la velocità con cui i modelli di grande dimensione linguistica possono elaborare le richieste.

I ricercatori hanno riassunto le principali contribuzioni come segue:

  1. Il servizio di modelli di grande dimensione linguistica è stato analizzato in modo approfondito come primo passo nell’analisi delle prestazioni dello studio. Sono state identificate le importanti prestazioni che derivano dall’utilizzo di approcci di quantizzazione a basso bit per i pesi e le attivazioni.
  1. È stata presentata una tecnica di quantizzazione a basso bit unica e precisa chiamata Atom.
  1. Il team ha condiviso che Atom utilizza una varietà di strategie per garantire prestazioni ottimali. Utilizza precisione mista, che utilizza una precisione ridotta per le attivazioni e i pesi chiave restanti mantenendo l’accuratezza per i primi. È stato utilizzato il raggruppamento di granularità fine per ridurre gli errori durante il processo di quantizzazione.
  1. Atom utilizza la quantizzazione dinamica delle attivazioni, che riduce gli errori di quantizzazione adattandosi alla distribuzione unica di ogni input. Per migliorare ulteriormente le prestazioni complessive, il metodo si occupa anche della quantizzazione della cache KV.
  1. La ricerca ha anche proposto un quadro integrato per il servizio a lungo termine (LLM). Il team ha progettato un sistema di inferenza efficace, costruendo kernel GPU a basso bit e mostrando l’utile capacità di elaborazione end-to-end di Atom in un contesto reale.
  1. Le prestazioni di Atom sono state valutate in modo approfondito, evidenziando come Atom aumenti notevolmente la capacità di elaborazione del servizio di modelli di grande dimensione linguistica, con aumenti di capacità di elaborazione fino a 7,7 volte a scapito di una perdita di precisione minima.