Fornisci modelli di linguaggio di grandi dimensioni dal tuo computer con l’Inferenza di Generazione di Testo
Genera modelli di linguaggio di grandi dimensioni dal tuo computer con l'Inferenza di Generazione di Testo
Esempi con la versione instruttiva di Falcon-7B
Eseguire modelli linguistici molto grandi (LLM) in locale, su hardware consumer, è ora possibile grazie a metodi di quantizzazione come QLoRa e GPTQ.
Considerando quanto tempo impiega per caricare un LLM, potremmo anche voler mantenere il LLM in memoria per interrogarlo e ottenere i risultati istantaneamente. Se si utilizzano LLM con una pipeline di inferenza standard, è necessario ricaricare il modello ogni volta. Se il modello è molto grande, potrebbe essere necessario attendere diversi minuti affinché il modello generi un output.
Esistono vari framework che possono ospitare LLM su un server (in locale o in remoto). Sul mio blog ho già presentato Triton Inference Server, che è un framework molto ottimizzato, sviluppato da NVIDIA, per servire più LLM e bilanciare il carico tra le GPU. Ma se si dispone di una sola GPU e si desidera ospitare il proprio modello sul proprio computer, l’utilizzo di un’infrastruttura Triton potrebbe sembrare inadatto.
In questo articolo, presento un’alternativa chiamata Text Generation Inference. Un framework più semplice che implementa tutte le funzionalità minime per eseguire e servire LLM su hardware consumer.
- Le decisioni che preparano i team di dati per il successo
- Migliora la previsione dei dati tabulari con Large Language Model tramite OpenAI API
- 2 Modi Efficaci per Spostare i Dati da On-Premises al Cloud
Dopo aver letto questo articolo, avrai sul tuo computer un modello di chat/LLM distribuito in locale e in attesa di richieste.
Inferenza della Generazione di Testo
Inferenza della Generazione di Testo (TGI) è un framework scritto in Rust e Python per distribuire e servire LLM. È sviluppato da Hugging Face e distribuito con una licenza Apache 2.0. Hugging Face lo utilizza in produzione per alimentare i loro widget di inferenza.
Nonostante TGI sia stato ottimizzato per le GPU A100, ho trovato TGI molto adatto per LLM self-hosted, su hardware consumer come le GPU RTX, grazie al supporto per la quantizzazione e l’attenzione paginata. Tuttavia, richiede un’installazione particolare per supportare le GPU RTX, che dettaglierò più avanti in questo articolo.
Recentemente, ho scoperto anche che Hugging Face sta ottimizzando alcune architetture LLM in modo che eseguano più velocemente con TGI.
Questo è soprattutto il caso dei modelli Falcon che sono relativamente lenti quando eseguiti con una pipeline di inferenza standard ma molto più veloci…