Possono gli LLM essere eseguiti nativamente sul tuo iPhone? Incontra MLC-LLM un framework aperto che porta i modelli di linguaggio (LLM) direttamente in una vasta gamma di piattaforme con accelerazione GPU

Grazie al framework aperto MLC-LLM, gli LLM possono essere eseguiti nativamente su varie piattaforme con accelerazione GPU, inclusi gli iPhone.

I modelli linguistici di grandi dimensioni (LLM) sono l’argomento caldo attuale nel campo dell’Intelligenza Artificiale. Sono già stati fatti notevoli progressi in una vasta gamma di settori come la sanità, la finanza, l’educazione, l’intrattenimento, ecc. I noti modelli linguistici di grandi dimensioni come GPT, DALLE e BERT svolgono compiti straordinari e semplificano la vita. Mentre GPT-3 può completare codici, rispondere a domande come gli esseri umani e generare contenuti basandosi solo su una breve frase in linguaggio naturale, DALLE 2 può creare immagini in risposta a una semplice descrizione testuale. Questi modelli stanno contribuendo a enormi trasformazioni nell’Intelligenza Artificiale e nell’Apprendimento Automatico e li stanno aiutando a passare attraverso un cambiamento di paradigma.

Con lo sviluppo di un numero sempre maggiore di modelli, c’è la necessità di server potenti per soddisfare le loro estese esigenze computazionali, di memoria e di accelerazione hardware. Per rendere questi modelli super efficaci ed efficienti, dovrebbero essere in grado di funzionare in modo indipendente su dispositivi dei consumatori, aumentando così la loro accessibilità e disponibilità e consentendo agli utenti di accedere a potenti strumenti di intelligenza artificiale sui loro dispositivi personali senza bisogno di una connessione internet o di affidarsi a server cloud. Recentemente, è stato introdotto MLC-LLM, un framework aperto che porta direttamente i LLM in una vasta classe di piattaforme come CUDA, Vulkan e Metal, anche con accelerazione GPU.

MLC LLM consente di distribuire modelli linguistici nativamente su una vasta gamma di backend hardware, inclusi CPU e GPU e applicazioni native. Ciò significa che qualsiasi modello linguistico può essere eseguito su dispositivi locali senza bisogno di un server o di un’infrastruttura basata su cloud. MLC LLM fornisce un framework produttivo che consente agli sviluppatori di ottimizzare le prestazioni dei modelli per i propri casi d’uso, come l’Elaborazione del Linguaggio Naturale (NLP) o la Visione Artificiale. Può persino essere accelerato utilizzando GPU locali, rendendo possibile l’esecuzione di modelli complessi con elevata precisione e velocità su dispositivi personali.

Sono state fornite istruzioni specifiche per eseguire LLM e chatbot nativamente su dispositivi iPhone, Windows, Linux, Mac e browser web. Per gli utenti di iPhone, MLC LLM fornisce un’app di chat iOS che può essere installata attraverso la pagina TestFlight. L’app richiede almeno 6 GB di memoria per funzionare correttamente ed è stata testata su iPhone 14 Pro Max e iPhone 12 Pro. La velocità di generazione del testo sull’app iOS può essere instabile a volte e potrebbe essere lenta all’inizio prima di riprendersi alla velocità normale.

Per gli utenti di Windows, Linux e Mac, MLC LLM fornisce un’app interfaccia a riga di comando (CLI) per chattare con il bot nel terminale. Prima di installare l’app CLI, gli utenti dovrebbero installare alcune dipendenze, tra cui Conda, per gestire l’app e il driver Vulkan più recente per gli utenti di GPU NVIDIA su Windows e Linux. Dopo aver installato le dipendenze, gli utenti possono seguire le istruzioni per installare l’app CLI e iniziare a chattare con il bot. Per gli utenti del browser web, MLC LLM fornisce un progetto complementare chiamato WebLLM, che distribuisce modelli nativamente nei browser. Tutto viene eseguito all’interno del browser senza supporto del server ed è accelerato con WebGPU.

In conclusione, MLC LLM è una soluzione universale incredibile per distribuire LLM nativamente su diversi backend hardware e applicazioni native. È una grande opzione per gli sviluppatori che desiderano creare modelli in grado di funzionare su una vasta gamma di dispositivi e configurazioni hardware.