Servire efficientemente LLM open source

Servire LLM open source efficacemente

Questo articolo spiega le mie esperienze personali nell’utilizzo di 6 metodi comuni per il servizio di LLM open source: AWS Sage Maker, Hugging Face, Together.AI, VLLM e Petals.ml.

La lotta…

Hai sentito il dolore, la lotta e la gloria nel servire il tuo LLM open source ottimizzato, tuttavia, alla fine hai deciso di tornare a Open AI o Anthropic a causa dei costi, del tempo di inferenza, dell’affidabilità e delle sfide tecnologiche 🙁 Hai anche rinunciato a noleggiare una GPU A100 (molti fornitori hanno le GPU completamente prenotate fino alla fine del 2023!). E non hai 100.000 euro da spendere per una scatola server A100 a 2 livelli. Tuttavia, stai sognando e desideri davvero far funzionare l’open source per la tua soluzione. Forse la tua azienda non vuole inviare i suoi dati privati a Open AI o desideri un modello ottimizzato per un compito molto specifico? In questo articolo, descriverò e comparirò alcuni dei metodi/piattaforme di inferenza più efficaci per il servizio di LLM open source nel 2023. Confronterò e illustrerò i 6 metodi spiegando quando utilizzare uno o l’altro. Ho personalmente provato tutti e 6 questi e descriverò la mia esperienza personale con queste soluzioni: AWS Sage Maker, Hugging Face Inference endpoints, Together.AI, VLLM e Petals.ml. Non ho tutte le risposte, ma farò del mio meglio per descrivere le mie esperienze. Non ho alcuna connessione finanziaria con nessuno di questi fornitori e sto semplicemente condividendo le mie esperienze a beneficio degli altri. Racconta delle tue esperienze!

Perché open source?

I modelli open source hanno una serie di vantaggi, tra cui il controllo, la privacy e la riduzione potenziale dei costi. Ad esempio, potresti ottimizzare un modello open source più piccolo per il tuo caso d’uso specifico, ottenendo risultati accurati e tempi di inferenza rapidi. Il controllo sulla privacy significa che l’inferenza può essere eseguita sui tuoi server. D’altra parte, la riduzione dei costi è molto più difficile di quanto si possa pensare. Open AI ha economie di scala e offre prezzi competitivi. Il loro modello di pricing per GPT-3.5 turbo è molto difficile da competere e ha dimostrato di essere simile al costo dell’elettricità. Tuttavia, ci sono metodi e tecniche che puoi utilizzare per risparmiare denaro e ottenere risultati eccellenti con modelli open source. Ad esempio, il mio modello ottimizzato di Stable Beluga 2 sta attualmente superando significativamente GPT-3.5 Turbo ed è più economico per la mia applicazione. Quindi io…

Servire efficientemente LLM open source

Servire LLM open source efficacemente

La lotta…

Perché open source?

Demistificazione della Regressione Logistica Una Guida Semplice

L’IA generativa può cambiare il mondo, ma solo se l’infrastruttura dati tiene il passo

Un’immersione approfondita nel codice...

Dovresti usare gli slot? Come gli slot infl...

Celebriamo il 26º compleanno di Devart con ...

Impara la Pulizia dei Dati e il Preprocessi...

Il cugino AI di Michelangelo Neuralangelo è...

Una modesta introduzione all’elaboraz...

AI