Servire efficientemente LLM open source

Servire LLM open source efficacemente

Foto di Mariia Shalabaieva su Unsplash

Questo articolo spiega le mie esperienze personali nell’utilizzo di 6 metodi comuni per il servizio di LLM open source: AWS Sage Maker, Hugging Face, Together.AI, VLLM e Petals.ml.

La lotta…

Hai sentito il dolore, la lotta e la gloria nel servire il tuo LLM open source ottimizzato, tuttavia, alla fine hai deciso di tornare a Open AI o Anthropic a causa dei costi, del tempo di inferenza, dell’affidabilità e delle sfide tecnologiche 🙁 Hai anche rinunciato a noleggiare una GPU A100 (molti fornitori hanno le GPU completamente prenotate fino alla fine del 2023!). E non hai 100.000 euro da spendere per una scatola server A100 a 2 livelli. Tuttavia, stai sognando e desideri davvero far funzionare l’open source per la tua soluzione. Forse la tua azienda non vuole inviare i suoi dati privati a Open AI o desideri un modello ottimizzato per un compito molto specifico? In questo articolo, descriverò e comparirò alcuni dei metodi/piattaforme di inferenza più efficaci per il servizio di LLM open source nel 2023. Confronterò e illustrerò i 6 metodi spiegando quando utilizzare uno o l’altro. Ho personalmente provato tutti e 6 questi e descriverò la mia esperienza personale con queste soluzioni: AWS Sage Maker, Hugging Face Inference endpoints, Together.AI, VLLM e Petals.ml. Non ho tutte le risposte, ma farò del mio meglio per descrivere le mie esperienze. Non ho alcuna connessione finanziaria con nessuno di questi fornitori e sto semplicemente condividendo le mie esperienze a beneficio degli altri. Racconta delle tue esperienze!

Perché open source?

I modelli open source hanno una serie di vantaggi, tra cui il controllo, la privacy e la riduzione potenziale dei costi. Ad esempio, potresti ottimizzare un modello open source più piccolo per il tuo caso d’uso specifico, ottenendo risultati accurati e tempi di inferenza rapidi. Il controllo sulla privacy significa che l’inferenza può essere eseguita sui tuoi server. D’altra parte, la riduzione dei costi è molto più difficile di quanto si possa pensare. Open AI ha economie di scala e offre prezzi competitivi. Il loro modello di pricing per GPT-3.5 turbo è molto difficile da competere e ha dimostrato di essere simile al costo dell’elettricità. Tuttavia, ci sono metodi e tecniche che puoi utilizzare per risparmiare denaro e ottenere risultati eccellenti con modelli open source. Ad esempio, il mio modello ottimizzato di Stable Beluga 2 sta attualmente superando significativamente GPT-3.5 Turbo ed è più economico per la mia applicazione. Quindi io…