OpenAI lancia Baby Llama – Un LLM per dispositivi a basso consumo energetico!

OpenAI lancia Baby Llama - Un LLM per dispositivi a basso consumo energetico!

Ultime notizie dal mondo dell’intelligenza artificiale! L’esperto di deep learning di spicco di OpenAI, Andrej Karpathy, ha intrapreso un emozionante progetto nel fine settimana che potrebbe rivoluzionare il modo in cui eseguiamo modelli complessi su dispositivi con risorse limitate. Con la sua creazione di “Baby Llama”, una versione semplificata del modello Llama 2, Karpathy mette in mostra il potere del codice C puro e il suo potenziale per consentire tassi altamente interattivi su macchine di piccole dimensioni. Approfondiamo questo sviluppo rivoluzionario!

Inoltre Leggi: OpenAI si unirà alla corsa open source con la pubblicazione pubblica del modello di intelligenza artificiale

Una ricerca di tassi interattivi – La nascita di Baby Llama

Mosso dalla sua curiosità di esplorare nuove possibilità, Andrej Karpathy, un pioniere nel campo del deep learning, si è messo in missione per liberare il potenziale di Llama 2 open source. Nonostante la sua capacità di costruire GPT-5 in un fine settimana, Karpathy ha dedicato il suo tempo a sperimentare con Llama 2, dimostrando la sua passione nel spingere i confini dell’intelligenza artificiale.

Inoltre Leggi: Llama 2 di Meta: rilasciato come open source per uso commerciale

Conversazione di GPT-2 a Llama 2: L’esperimento del fine settimana

Nel suo repository GitHub, Llama2.c, Karpathy ha condiviso intuizioni sul suo processo creativo. Ha preso il framework nanoGPT e lo ha abilmente trasformato nell’architettura Llama 2, il tutto scritto nel linguaggio di programmazione C. Di conseguenza, il suo repository ha attirato notevole attenzione, accumulando oltre 2,2K stelle nel giro di poco tempo.

Tassi interattivi con modelli a risorse limitate

Uno dei risultati più sorprendenti dell’esperimento di Karpathy è la sua capacità di ottenere tassi altamente interattivi con modelli di dimensioni ragionevoli. Nonostante l’uso di un modello contenente alcuni milioni di parametri, addestrato su un dataset TinyStories con 15 milioni di parametri, l’approccio di Karpathy ha avuto un successo notevole.

Inoltre Leggi: Il nuovo modello di intelligenza artificiale si distingue rispetto a GPT-3 con soli 30B di parametri

Velocità sorprendente su dispositivi a basso consumo energetico

Sul suo MacBook Air M1, Karpathy è riuscito a ottenere risultati impressionanti. Il modello Llama 2, che vanta circa 15 milioni di parametri, ha mostrato una velocità di inferenza fulminea di circa 100 token al secondo nei calcoli in virgola mobile singola precisione (fp32). Questo risultato sorprendente evidenzia il potenziale di eseguire facilmente modelli sofisticati su dispositivi con risorse limitate.

Inoltre Leggi: Dalla GPT-3 alle future generazioni di modelli di linguaggio

Spingendo i limiti – Più grandi e migliori

Incoraggiato dal successo iniziale, Karpathy ha continuato a spingere i confini. Ha aggiornato attivamente il repository ed è stato testato un modello più sostanziale con 44 milioni di parametri, tre volte più grande. Con sua grande sorpresa, è riuscito ad addestrare 200k iterazioni con una dimensione del batch di 32 su 4 GPU A100 in circa otto ore.

Inoltre Leggi: Il maestro giocatore di intelligenza artificiale di DeepMind: impara 26 giochi in 2 ore

Ispirazione da LLaMA.cpp e la connessione con PyTorch

Karpathy riconosce che il suo progetto è stato fortemente ispirato da “llama.cpp” di Georgi Gerganov, un progetto che aveva lo scopo di utilizzare LLaMA su un MacBook utilizzando C e C++. L’approccio di Karpathy è iniziato addestrando l’architettura Llama 2 LLM da zero utilizzando PyTorch. Ha quindi utilizzato un file C di 500 righe, “run.c”, per eseguire inferenze con una memoria minima senza bisogno di librerie esterne.

Aggiustamento fine per prestazioni migliorate

Per ottimizzare ulteriormente il codice C, Karpathy ha esplorato varie tecniche, inclusi diversi flag di compilazione come -O3, -Ofast, -march=native e altro ancora. Questi flag hanno aiutato ad abilitare la vettorizzazione, lo srotolamento dei cicli e altre ottimizzazioni specifiche dell’hardware, portando a inferenze ancora più veloci su sistemi specifici.

Non pronto per il deployment – Tuttavia uno sguardo al futuro

Sebbene l’esperimento del fine settimana di Karpathy sia stato un successo rivoluzionario, chiarisce che Baby Llama non è destinato a un deployment di produzione. L’obiettivo principale era quello di mostrare la fattibilità di eseguire modelli Llama 2 su dispositivi a basso consumo energetico. Questo esperimento mette in discussione la convinzione comune che l’apprendimento automatico richieda le GPU.

Modellare il Futuro dell’AI su Dispositivi più Piccoli

L’impatto dell’esperimento di Karpathy va oltre il campo dei progetti del fine settimana. Crea un precedente per l’integrazione di modelli su dispositivi locali più piccoli senza necessità di GPU. Questo progresso potrebbe potenzialmente aprire la strada a Microsoft, attraverso la sua partnership con Meta, per lanciare una serie di piccoli LLM basati su Llama 2, aprendo una nuova era di accessibilità all’AI.

Leggi anche: Microsoft introduce il framework di ottimizzazione automatica delle promozioni per LLM

La nostra opinione

Andrej Karpathy ha lanciato Baby Llama come una versione semplificata del modello Llama 2. Lo sviluppo di questo modello illustra l’immensa potenzialità nell’esecuzione di modelli di AI utilizzando solo codice C su dispositivi a bassa potenza. Il modello ha tassi di interazione sorprendenti e inferenze velocissime, promettendo un futuro eccezionale. Questo esperimento rivoluzionario prepara il terreno per un futuro in cui le applicazioni di AI complesse possono prosperare anche su macchine con risorse limitate. Il mondo dell’AI sta indubbiamente assistendo a un cambiamento di paradigma, e Baby Llama potrebbe essere solo l’inizio!