Learn more about Quantization

ExLlamaV2 La libreria più veloce per eseguire LLMs

ExLlamaV2 è una libreria progettata per ottenere ancora più prestazioni da GPTQ. Grazie ai nuovi kernel, è ottimizzat...

QLoRA Allenamento di un Modello di Linguaggio Su una GPU da 16GB.

Stiamo combinando una tecnica di riduzione del peso per i modelli, come la Quantizzazione, con una tecnica di sintoni...

Come adattare grandi modelli di linguaggio in memoria ridotta quantizzazione

I modelli di lingua di grandi dimensioni possono essere utilizzati per la generazione di testo, la traduzione, le dom...

Quantizzazione del tensore La storia non raccontata

Durante il resto di questo articolo, cercheremo di rispondere alle seguenti domande con esempi concreti. Scala Quando...

Quantizza i modelli di Llama con GGML e llama.cpp

In questo articolo, quantizziamo il nostro modello Llama 2 ottimizzato con GGML e llama.cpp. Successivamente, eseguia...

Introduzione alla Quantizzazione dei Pesi

Questo articolo descrive come quantizzare i parametri dei Large Language Models utilizzando schemi di quantizzazione ...

Ricerca di Similarità, Parte 3 Combinazione dell’Indice di File Invertito e della Quantizzazione del Prodotto

La ricerca di similarità è un problema in cui, dato un determinato input, l'obiettivo è trovare i documenti più simil...

Ricerca di similarità, Parte 2 Quantizzazione di prodotto

La ricerca di similarità è un problema in cui, dato un determinato input, l'obiettivo è trovare i documenti più simil...