Il futuro dell’IA generativa è il Edge

Il futuro dell'IA generativa è imminente' - The Future of Generative AI Is Imminent

L’avvento di ChatGPT e dell’intelligenza artificiale generativa in generale è un momento di svolta nella storia della tecnologia e viene paragonato all’alba di Internet e dello smartphone. L’intelligenza artificiale generativa ha dimostrato un potenziale illimitato nella capacità di sostenere conversazioni intelligenti, superare esami, generare programmi/codici complessi e creare immagini e video accattivanti. Mentre le GPU eseguono la maggior parte dei modelli Gen AI nel cloud – sia per l’addestramento che per l’inferenza – questa soluzione non è scalabile a lungo termine, soprattutto per l’inferenza, a causa di fattori che includono costo, potenza, latenza, privacy e sicurezza. Questo articolo affronta ciascuno di questi fattori insieme ad esempi motivanti per spostare i carichi di lavoro di calcolo Gen AI verso il bordo.

La maggior parte delle applicazioni viene eseguita su processori ad alta prestazione – sia su dispositivi (ad esempio, smartphone, desktop, laptop) che in data center. Con l’aumentare delle applicazioni che utilizzano l’intelligenza artificiale, questi processori con solo CPU non sono sufficienti. Inoltre, l’espansione rapida dei carichi di lavoro dell’intelligenza artificiale generativa sta generando una domanda esponenziale di server abilitati all’IA con costose e affamati di energia GPU che, a loro volta, stanno facendo aumentare i costi infrastrutturali. Questi server abilitati all’IA possono costare fino a 7 volte il prezzo di un server regolare e le GPU rappresentano l’80% di questo costo aggiuntivo.

Inoltre, un server basato su cloud consuma da 500W a 2000W, mentre un server abilitato all’IA consuma tra 2000W e 8000W – il 4x in più! Per supportare questi server, i data center hanno bisogno di moduli di raffreddamento aggiuntivi e di aggiornamenti infrastrutturali – che possono costare anche più dell’investimento di calcolo. I data center già consumano 300 TWH all’anno, quasi l’1% del consumo totale di energia a livello mondiale. Se i trend di adozione dell’IA continuano, fino al 5% dell’energia mondiale potrebbe essere utilizzata dai data center entro il 2030. Inoltre, si sta verificando un investimento senza precedenti nei data center dell’intelligenza artificiale generativa. Si stima che i data center consumeranno fino a 500 miliardi di dollari per spese di capitale entro il 2027, principalmente alimentate dai requisiti infrastrutturali dell’IA.

Il consumo di elettricità dei data center, già di 300 TWH, aumenterà significativamente con l’adozione dell’intelligenza artificiale generativa.

Il costo del calcolo dell’IA e il consumo di energia ostacoleranno l’adozione di massa dell’intelligenza artificiale generativa. Le sfide di scalabilità possono essere superate spostando il calcolo dell’IA verso il bordo e utilizzando soluzioni di elaborazione ottimizzate per i carichi di lavoro dell’IA. Con questo approccio, si ottengono anche altri vantaggi per il cliente, tra cui latenza, privacy, affidabilità e capacità aumentata.

Calcolo segue i dati al bordo

Da quando l’intelligenza artificiale è emersa dal mondo accademico, il training e l’inferenza dei modelli di intelligenza artificiale sono avvenuti nel cloud/data center. Con gran parte dei dati generati e consumati al bordo – in particolare video – aveva senso spostare l’inferenza dei dati al bordo, migliorando così il costo totale di proprietà (TCO) per le imprese grazie alla riduzione dei costi di rete e di calcolo. Mentre i costi di inferenza dell’IA sul cloud sono ricorrenti, il costo di inferenza al bordo è una spesa hardware una tantum. Fondamentalmente, l’aggiunta di un processore di intelligenza artificiale al bordo riduce i costi operativi complessivi. Come la migrazione dei carichi di lavoro dell’IA convenzionale verso il bordo (ad esempio, apparecchiatura, dispositivo), i carichi di lavoro dell’intelligenza artificiale generativa seguiranno la stessa strada. Ciò porterà significativi risparmi alle imprese e ai consumatori.

Il passaggio al bordo unito a un efficiente acceleratore di intelligenza artificiale per eseguire le funzioni di inferenza porta anche altri vantaggi. In primo luogo, vi è la latenza. Ad esempio, nelle applicazioni di gioco, i personaggi non giocanti (NPC) possono essere controllati e migliorati utilizzando l’intelligenza artificiale generativa. Utilizzando modelli LLM eseguiti su acceleratori di intelligenza artificiale al bordo in una console di gioco o un PC, i giocatori possono dare a questi personaggi obiettivi specifici, in modo che possano partecipare significativamente alla storia. La bassa latenza dall’inferenza al bordo locale consentirà a discorsi e movimenti degli NPC di rispondere ai comandi e alle azioni dei giocatori in tempo reale. Ciò fornirà un’esperienza di gioco molto coinvolgente in modo economico ed efficiente dal punto di vista energetico.

In applicazioni come la sanità, la privacy e l’affidabilità sono estremamente importanti (ad esempio, valutazione del paziente, raccomandazioni di farmaci). I dati e i modelli di intelligenza artificiale generativa correlati devono essere in loco per proteggere i dati dei pazienti (privacy) e eventuali interruzioni di rete che bloccherebbero l’accesso ai modelli di intelligenza artificiale nel cloud potrebbero essere catastrofiche. Un’apparecchiatura di intelligenza artificiale al bordo che esegue un modello di intelligenza artificiale generativa appositamente realizzato per ciascun cliente aziendale – in questo caso un fornitore di assistenza sanitaria – può risolvere in modo trasparente i problemi di privacy e affidabilità garantendo allo stesso tempo una latenza e un costo inferiori.

L’IA generativa sui dispositivi edge garantirà una bassa latenza nel gaming e preserverà i dati dei pazienti e migliorerà l’affidabilità per il settore sanitario.

Molti modelli di IA generativa in esecuzione sul cloud possono essere vicini a un trilione di parametri – questi modelli possono affrontare efficacemente query a scopo generale. Tuttavia, le applicazioni specifiche per le aziende richiedono che i modelli restituiscano risultati pertinenti all’uso specifico. Prendiamo ad esempio un assistente basato su IA generativa costruito per prendere ordini in un fast-food: per permettere una totale interazione con il cliente, il modello sottostante di IA generativa deve essere addestrato sugli elementi del menu del ristorante, conoscendo anche gli allergeni e gli ingredienti. La dimensione del modello può essere ottimizzata utilizzando un Large Language Model (LLM) di insieme per addestrare un LLM di 10-30 miliardi di parametri relativamente piccolo e quindi utilizzare un ulteriore sintonizzazione fine con i dati specifici del cliente. Un tale modello può fornire risultati con precisione e capacità aumentate. E dato le dimensioni più piccole del modello, può essere efficacemente implementato su un acceleratore di AI a Edge.

L’IA generativa vincerà a Edge

Ci sarà sempre bisogno di IA generativa in esecuzione sul cloud, specialmente per applicazioni a scopo generale come ChatGPT e Claude. Ma quando si tratta di applicazioni specifiche per le aziende, come il riempimento generativo di Adobe Photoshop o Github copilot, l’IA generativa a Edge non è solo il futuro, ma anche il presente. Gli acceleratori di AI appositamente progettati sono la chiave per renderlo possibile.