Ricercatori di Stanford propongono EVAPORATE un nuovo approccio AI che riduce il costo di inferenza dei modelli di linguaggio del 110x

Il team di Stanford propone EVAPORATE, un nuovo approccio AI che riduce del 110x il costo di inferenza dei modelli di linguaggio.

I modelli di linguaggio di grandi dimensioni sono costantemente in primo piano al giorno d’oggi. Con le loro straordinarie capacità e applicazioni in vari settori, una nuova ricerca o un nuovo aggiornamento in un LLM viene rilasciato quasi ogni giorno. Gli attuali LLM hanno un enorme numero di parametri che rende il costo di addestramento estremamente alto. Vengono addestrati su trilioni di token, il che li rende molto costosi.

In un articolo di ricerca recentemente pubblicato, alcuni studenti dell’Università di Stanford e dell’Università di Cornell hanno proposto un metodo che può affrontare la sfida dei costosi LLM. Il team ha condiviso come i modelli di linguaggio (LM) siano costosi quando si elaborano documenti di grandi dimensioni. Hanno citato un esempio del costo di esecuzione dell’inferenza su 55 milioni di pagine di Wikipedia, che supera i $100.000 e corrisponde a un prezzo superiore a $0,002 per 1000 token. L’approccio proposto dagli autori può ridurre i costi di inferenza di un fattore di 110 migliorando anche la qualità dei risultati rispetto all’esecuzione diretta dell’inferenza su ciascun documento.

Chiamato EVAPORATE, i LLM alimentano questo sistema prototipo e identificano due diverse strategie per implementare il sistema. La prima strategia consiste nel chiedere al LLM di estrarre direttamente i valori dai documenti. La seconda consiste nel chiedere al LLM di sintetizzare il codice che esegue l’estrazione. Il team ha valutato queste due approcci e ha riscontrato un compromesso tra costo e qualità. Sebbene la sintesi del codice fosse più economica, era anche meno accurata rispetto all’elaborazione diretta di ciascun documento con il LLM.

EVAPORATE identifica ridondanze in più documenti e le sfrutta per migliorare l’efficienza. Il team ha utilizzato l’esempio dell’estrazione dell’attributo di classificazione del dispositivo dai rapporti della FDA per i dispositivi medici per illustrare questo concetto. Invece di elaborare ogni documento semi-strutturato con il LLM, gli autori esplorano l’uso del LLM per generare funzioni che possono essere riutilizzate per l’estrazione da ogni documento.

Al fine di migliorare la qualità e mantenere bassi costi, il team ha proposto un’implementazione estesa della sintesi del codice chiamata EVAPORATE-CODE+. Questo approccio genera molte funzioni candidate e ne assembla le estrazioni utilizzando la supervisione debole. Mentre la supervisione debole viene tradizionalmente applicata alle funzioni generate dall’uomo, EVAPORATE-CODE+ opera con funzioni generate dalla macchina e affronta le sfide di questa configurazione per consentire miglioramenti di qualità.

EVAPORATE è stato valutato su 16 set di documenti in una varietà di formati, argomenti e tipi di attributi. EVAPORATE-CODE+ supera i sistemi SOTA utilizzando un passaggio sublineare sui documenti con il LLM, con una riduzione di 110 volte nel numero di token che il LLM deve elaborare, in media attraverso le 16 impostazioni di valutazione di 10.000 documenti ciascuna.

In conclusione, questo articolo presenta un approccio promettente per l’estrazione automatizzata di tabelle da documenti semi-strutturati utilizzando i LLM. Identificando i compromessi tra l’estrazione diretta e la sintesi del codice e proponendo un’implementazione estesa che ottiene una migliore qualità pur mantenendo bassi costi, questo lavoro sicuramente farà progressi nella comunità della gestione dei dati.