Come ho sfruttato i modelli di apprendimento automatico open source per ottenere enormi risparmi su un grande progetto di calcolo

Come ho usato modelli di apprendimento automatico open source per risparmiare notevolmente in un progetto di calcolo

Sbloccare l’efficienza dei costi nei progetti di calcolo di grandi dimensioni con LLM open source e noleggio di GPU.

Foto di Alexander Grey su Unsplash

Introduzione

Nel mondo dei grandi modelli di linguaggio (LLM), il costo del calcolo può rappresentare un ostacolo significativo, specialmente per progetti estesi. Di recente ho intrapreso un progetto che richiedeva l’esecuzione di 4.000.000 di prompt con una lunghezza media di input di 1000 token e una lunghezza media di output di 200 token. Quasi 5 miliardi di token! L’approccio tradizionale di pagamento per token, come è comune con modelli come GPT-3.5 e GPT-4, avrebbe comportato una spesa considerevole. Tuttavia, ho scoperto che sfruttando LLM open source potevo modificare il modello di prezzo per pagare per l’ora di tempo di calcolo, ottenendo significativi risparmi. Questo articolo illustrerà gli approcci che ho adottato e li comparerà. Si prega di notare che, sebbene condivida la mia esperienza con i prezzi, questi sono soggetti a modifiche e possono variare a seconda della tua regione e delle tue circostanze specifiche. Il punto chiave qui è il potenziale risparmio dei costi quando si sfruttano LLM open source e si noleggia una GPU per ora, anziché i prezzi specifici citati. Se hai intenzione di utilizzare le soluzioni consigliate per il tuo progetto, ho lasciato un paio di link affiliati alla fine di questo articolo.

API ChatGPT

Ho effettuato un test iniziale utilizzando GPT-3.5 e GPT-4 su un piccolo sottoinsieme dei miei dati di input. Entrambi i modelli hanno dimostrato prestazioni lodevoli, ma GPT-4 è stato costantemente superiore a GPT-3.5 nella maggior parte dei casi. Per darti un’idea dei costi, l’esecuzione di tutti i 4 milioni di prompt utilizzando l’API di Open AI avrebbe un aspetto simile a questo:

Costo totale dell'esecuzione di 4 milioni di prompt con lunghezza di input di 1000 token e lunghezza di output di 200 token

Anche se GPT-4 offriva alcuni vantaggi in termini di prestazioni, il costo era sproporzionatamente elevato rispetto alle prestazioni incrementalmente aggiunte ai miei output. Al contrario, GPT-3.5 Turbo, sebbene più conveniente, non raggiungeva le prestazioni desiderate, commettendo errori evidenti su circa il 2-3% dei miei input. Dati questi fattori, non ero disposto a investire $7,600 in un progetto che…