Perfeziona il tuo modello Llama 2 personalizzato in un notebook di Colab
Migliora il tuo modello Llama 2 personalizzato in Colab
Un’introduzione pratica al fine-tuning di LLM

Con il rilascio di LLaMA v1, abbiamo assistito a una esplosione cambriana di modelli fine-tuned, tra cui Alpaca, Vicuna e WizardLM, tra gli altri. Questa tendenza ha incoraggiato diverse aziende a lanciare i propri modelli di base con licenze adatte all’uso commerciale, come OpenLLaMA, Falcon, XGen, ecc. Il rilascio di Llama 2 combina ora gli elementi migliori di entrambi i lati: offre un modello di base altamente efficiente insieme a una licenza più permissiva.
Nella prima metà del 2023, il panorama del software è stato significativamente plasmato dall’ampio utilizzo delle API (come l’API di OpenAI) per creare infrastrutture basate su Large Language Models (LLM). Librerie come LangChain e LlamaIndex hanno svolto un ruolo critico in questa tendenza. Nella seconda metà dell’anno, il processo di fine-tuning di questi modelli sta diventando una procedura standard nel flusso di lavoro di LLMOps. Questa tendenza è guidata da vari fattori: il potenziale di risparmio dei costi, la capacità di elaborare dati confidenziali e persino il potenziale di sviluppare modelli che superano le prestazioni di modelli di spicco come ChatGPT e GPT-4 in determinati compiti specifici.
In questo articolo, vedremo perché il fine-tuning funziona e come implementarlo in un notebook di Google Colab per creare il proprio modello Llama 2. Come al solito, il codice è disponibile su Colab e GitHub.
🔧 Contesto sul fine-tuning di LLM

LLM sono preallenati su un esteso corpus di testo. Nel caso di Llama 2, sappiamo molto poco sulla composizione dell’insieme di addestramento, oltre alla sua lunghezza di 2 trilioni di token. In confronto, BERT (2018) è stato “solo” addestrato su BookCorpus (800M parole) e Wikipedia inglese (2.500M parole). Dall’esperienza, si tratta di un processo molto costoso e lungo con molti problemi hardware. Se vuoi saperne di più, ti consiglio di leggere il logbook di Meta sull’addestramento preliminare del modello OPT-175B.
- Top Computer Vision Papers durante la settimana dal 17/7 al 23/7
- Trasformazione non convenzionale delle date resa facile utilizzando la libreria Pandas di Python
- Come estrarre testo da qualsiasi PDF e immagine per un grande modello di linguaggio
Quando il preallenamento è completo, i modelli auto-regressivi come Llama 2 possono prevedere il token successivo in una sequenza. Tuttavia, questo non li rende…