Fornisci modelli di linguaggio di grandi dimensioni dal tuo computer con l’Inferenza di Generazione di Testo

Genera modelli di linguaggio di grandi dimensioni dal tuo computer con l'Inferenza di Generazione di Testo

Esempi con la versione instruttiva di Falcon-7B

Foto di Nana Dua su Unsplash

Eseguire modelli linguistici molto grandi (LLM) in locale, su hardware consumer, è ora possibile grazie a metodi di quantizzazione come QLoRa e GPTQ.

Considerando quanto tempo impiega per caricare un LLM, potremmo anche voler mantenere il LLM in memoria per interrogarlo e ottenere i risultati istantaneamente. Se si utilizzano LLM con una pipeline di inferenza standard, è necessario ricaricare il modello ogni volta. Se il modello è molto grande, potrebbe essere necessario attendere diversi minuti affinché il modello generi un output.

Esistono vari framework che possono ospitare LLM su un server (in locale o in remoto). Sul mio blog ho già presentato Triton Inference Server, che è un framework molto ottimizzato, sviluppato da NVIDIA, per servire più LLM e bilanciare il carico tra le GPU. Ma se si dispone di una sola GPU e si desidera ospitare il proprio modello sul proprio computer, l’utilizzo di un’infrastruttura Triton potrebbe sembrare inadatto.

In questo articolo, presento un’alternativa chiamata Text Generation Inference. Un framework più semplice che implementa tutte le funzionalità minime per eseguire e servire LLM su hardware consumer.

Dopo aver letto questo articolo, avrai sul tuo computer un modello di chat/LLM distribuito in locale e in attesa di richieste.

Inferenza della Generazione di Testo

Inferenza della Generazione di Testo (TGI) è un framework scritto in Rust e Python per distribuire e servire LLM. È sviluppato da Hugging Face e distribuito con una licenza Apache 2.0. Hugging Face lo utilizza in produzione per alimentare i loro widget di inferenza.

Nonostante TGI sia stato ottimizzato per le GPU A100, ho trovato TGI molto adatto per LLM self-hosted, su hardware consumer come le GPU RTX, grazie al supporto per la quantizzazione e l’attenzione paginata. Tuttavia, richiede un’installazione particolare per supportare le GPU RTX, che dettaglierò più avanti in questo articolo.

Recentemente, ho scoperto anche che Hugging Face sta ottimizzando alcune architetture LLM in modo che eseguano più velocemente con TGI.

Questo è soprattutto il caso dei modelli Falcon che sono relativamente lenti quando eseguiti con una pipeline di inferenza standard ma molto più veloci…