GPT privato Ottimizza LLM sui dati aziendali

Private GPT Optimizes LLM on Business Data

Realizzare cose interessanti con i dati

Foto di Robynne Hu su Unsplash

Introduzione

Nell’era dei big data e dell’intelligenza artificiale avanzata, i modelli di linguaggio sono emersi come strumenti formidabili in grado di elaborare e generare testi simili a quelli umani. I grandi modelli di linguaggio come ChatGPT sono chatbot generici in grado di conversare su molti argomenti. Tuttavia, i LLM possono anche essere adattati al contesto aziendale specifico, rendendoli più precisi e pertinenti alle domande specifiche del dominio.

Molte industrie e applicazioni richiederanno LLM adattati al contesto specifico. Le ragioni includono:

  • Miglioramento delle prestazioni di un chatbot addestrato su dati specifici
  • I modelli OpenAI come ChatGPT sono una scatola nera e le aziende potrebbero essere riluttanti a condividere i loro dati riservati tramite un’API
  • Il costo dell’API di ChatGPT potrebbe essere proibitivo per le grandi applicazioni

La sfida nell’adattare un LLM al contesto specifico è che il processo è sconosciuto e le risorse di calcolo necessarie per addestrare un modello con un miliardo di parametri senza ottimizzazioni possono essere proibitive.

Fortunatamente, sono state condotte molte ricerche sulle tecniche di addestramento che ci consentono ora di adattare LLM anche su GPU più piccole.

In questo blog, copriremo alcune delle tecniche utilizzate per l’adattamento dei LLM. Addestreremo il modello Falcon 7B sui dati finanziari su una GPU Colab! Le tecniche utilizzate qui sono generali e possono essere applicate ad altri modelli più grandi come MPT-7B e MPT-30B.

In Deep Learning Analytics, abbiamo costruito modelli di machine learning personalizzati negli ultimi 6 anni. Contattaci se sei interessato ad adattare un LLM per la tua applicazione.

QLoRA

QLoRA, che sta per “Quantized Low-Rank Adaptation”, presenta un approccio che combina quantizzazione e adattamento a basso rango per ottenere un adattamento efficiente dei modelli di intelligenza artificiale. Entrambi questi termini sono spiegati in dettaglio di seguito.

QLoRA riduce la memoria richiesta per l’adattamento dei LLM, senza alcuna perdita di prestazioni rispetto a un modello standard adattato con 16 bit. Questo metodo consente di adattare un modello con 7 miliardi di parametri su una GPU da 16 GB, un modello con 33 miliardi di parametri su una singola GPU da 24 GB e un modello con 65…