Ricercatori di Microsoft Research e dell’Università di Tsinghua hanno proposto ‘Skeleton-of-Thought (SoT)’ un nuovo approccio di intelligenza artificiale per accelerare la generazione di LLMs.

Un nuovo approccio di intelligenza artificiale, il 'Skeleton-of-Thought (SoT)', proposto da ricercatori di Microsoft Research e dell'Università di Tsinghua per accelerare la generazione di LLMs.

“`html

I Large Language Models (LLMs), come GPT-4 e LLaMA, hanno senza dubbio trasformato il panorama tecnologico. Tuttavia, la lentezza di elaborazione è una sfida ricorrente che limita la loro applicabilità diffusa. Nonostante le loro notevoli capacità, il tempo necessario per ottenere risposte da LLMs ostacola la loro efficacia, soprattutto nelle applicazioni critiche in termini di latenza come chatbot, copilota e controllori industriali. Riconoscendo la necessità di una soluzione che affronti questo problema fondamentale, i ricercatori di Microsoft Research e dell’Università Tsinghua hanno introdotto un approccio innovativo chiamato Skeleton-of-Thought (SoT).

Tradizionalmente, gli sforzi per migliorare la velocità dei LLMs hanno comportato modifiche complesse nei modelli, nei sistemi o nell’hardware. Tuttavia, il team di ricerca prende una strada diversa con SoT. A differenza dei metodi convenzionali, SoT si astiene dal fare modifiche estensive ai LLMs e li tratta invece come scatole nere. L’attenzione si sposta dal modificare il funzionamento interno dei modelli all’ottimizzazione dell’organizzazione dei loro contenuti di output. La soluzione proposta spinge i LLMs ad adottare un processo unico a due fasi. Nella prima fase, il LLM viene indirizzato a derivare uno scheletro della risposta. Successivamente, nella seconda fase, il LLM è incaricato di espandere parallelamente più punti all’interno dello scheletro. Questo approccio introduce un nuovo modo di migliorare i tempi di risposta dei LLMs senza richiedere complessi adattamenti all’architettura del modello.

La metodologia di SoT consiste nel suddividere il processo di generazione di contenuti in due fasi distinte. Inizialmente, si chiede al LLM di costruire uno scheletro della risposta. Questo primo passo si allinea a come le persone affrontano spesso la risoluzione dei problemi, delineando una struttura di alto livello. La seconda fase sfrutta questo scheletro per eseguire un’espansione parallela, consentendo al LLM di affrontare contemporaneamente più punti. In modo sorprendente, questo approccio è applicabile a modelli open-source come LLaMA e modelli basati su API come GPT-4, dimostrandone la versatilità.

Per valutare l’efficacia di SoT, il team di ricerca ha condotto test approfonditi su 12 modelli recentemente rilasciati, che coprono entrambe le categorie open-source e basate su API. Il team ha osservato notevoli accelerazioni utilizzando il dataset Vicuna-80, che include domande in diversi settori come la programmazione, la matematica, la scrittura e il gioco di ruolo. SoT ha ottenuto accelerazioni comprese tra 1,13x e 2,39x su otto dei 12 modelli. Crucialmente, queste accelerazioni sono state raggiunte senza sacrificare la qualità delle risposte. Il team ha utilizzato metriche da FastChat e LLMZoo per valutare la qualità delle risposte di SoT, dimostrando la sua capacità di mantenere o migliorare la qualità delle risposte in diverse categorie di domande.

In conclusione, SoT si presenta come una soluzione promettente alla sfida persistente dei LLMs lenti. L’approccio innovativo del team di ricerca nel trattare i LLMs come scatole nere e nel concentrarsi sull’ottimizzazione dell’efficienza a livello di dati offre una prospettiva fresca per accelerare la generazione di contenuti. Inducendo i LLMs a costruire uno scheletro della risposta e quindi eseguendo un’espansione parallela, SoT introduce un modo efficace per migliorare i tempi di risposta. I risultati della valutazione dimostrano non solo notevoli accelerazioni, ma anche la capacità di mantenere o migliorare la qualità delle risposte, affrontando così la sfida dell’efficienza e dell’efficacia. Questo lavoro apre nuove vie per future esplorazioni nei processi di pensiero dinamico per l’intelligenza artificiale, incoraggiando uno spostamento verso modelli di linguaggio più efficienti e versatili.

“`