L’Enigma per ChatGPT PUMA è un Approccio AI che Propone un Modo Veloce e Sicuro per l’Inferenza di LLM

L'Enigma per ChatGPT PUMA è un Approccio AI per l'Inferenza di LLM veloce e sicuro.

I Large Language Models (LLM) hanno avviato una rivoluzione nel campo dell’intelligenza artificiale. Il rilascio di ChatGPT ha scatenato l’inizio dell’era dei LLM, e da allora li abbiamo visti migliorare sempre di più. Questi modelli sono resi possibili grazie a enormi quantità di dati e ci hanno impressionato con le loro capacità, dall’acquisizione di una comprensione del linguaggio alla semplificazione di compiti complessi.

Sono state proposte numerose alternative a ChatGPT, e giorno dopo giorno sono diventate sempre migliori, riuscendo persino a superare ChatGPT in determinati compiti. LLaMa, Claudia, Falcon e altri; i nuovi modelli LLM stanno arrivando per il trono di ChatGPT.

Tuttavia, non c’è dubbio che ChatGPT sia ancora di gran lunga il LLM più popolare là fuori. C’è una probabilità molto alta che la tua app preferita alimentata da intelligenza artificiale sia probabilmente solo un involucro di ChatGPT, che gestisce la connessione per te. Ma, se ci fermiamo a riflettere dal punto di vista della sicurezza, è davvero privato e sicuro? OpenAI si impegna a proteggere la privacy dei dati dell’API, ma allo stesso tempo sta affrontando numerose cause legali. Anche se lavorano duramente per proteggere la privacy e la sicurezza dell’uso del modello, questi modelli possono essere troppo potenti per essere controllati.

Quindi come possiamo assicurarci di poter sfruttare la potenza dei LLM senza preoccupazioni per la privacy e la sicurezza? Come possiamo utilizzare le abilità di questi modelli senza compromettere dati sensibili? Incontriamo PUMA.

PUMA è un framework progettato per consentire una valutazione sicura ed efficiente dei modelli Transformer, mantenendo al contempo l’integrità dei tuoi dati. Unisce la computazione multi-parti sicura (MPC) all’efficienza dell’inferenza dei Transformer.

Alla sua base, PUMA introduce una nuova tecnica per approssimare le funzioni non lineari complesse all’interno dei modelli Transformer, come GeLU e Softmax. Queste approssimazioni sono studiate per mantenere l’accuratezza mentre aumentano significativamente l’efficienza. A differenza dei metodi precedenti che potrebbero sacrificare le prestazioni o portare a strategie di distribuzione complicate, l’approccio di PUMA bilancia entrambi i mondi, garantendo risultati accurati e mantenendo l’efficienza necessaria per le applicazioni reali.

PUMA introduce tre entità fondamentali: il proprietario del modello, il cliente e le parti coinvolte nel calcolo. Ogni entità svolge un ruolo cruciale nel processo di inferenza sicura.

Il proprietario del modello fornisce i modelli Transformer addestrati, mentre il cliente contribuisce con i dati di input e riceve i risultati dell’inferenza. Le parti coinvolte nel calcolo eseguono collettivamente protocolli di calcolo sicuro, garantendo che i dati e i pesi dei modelli siano protetti in modo sicuro durante tutto il processo. Il principio sottostante del processo di inferenza di PUMA è quello di mantenere la riservatezza dei dati di input e dei pesi, preservando la privacy delle entità coinvolte.

L’incorporazione sicura, un aspetto fondamentale del processo di inferenza sicura, tradizionalmente comporta la generazione di un vettore “one-hot” utilizzando identificatori di token. Invece, PUMA propone un design di incorporazione sicura che si attiene strettamente al flusso di lavoro standard dei modelli Transformer. Questo approccio snello garantisce che le misure di sicurezza non interferiscano con l’architettura intrinseca del modello, semplificando la distribuzione di modelli sicuri nelle applicazioni pratiche.

Panoramica dei protocolli GeLU e LayerNorm sicuri utilizzati in PUMA. Fonte: https://arxiv.org/pdf/2307.12533.pdf

Inoltre, una delle principali sfide nell’inferenza sicura consiste nell’approssimare funzioni complesse, come GeLU e Softmax, in modo che bilancino l’efficienza computazionale con l’accuratezza. PUMA affronta questo aspetto ideando approssimazioni più accurate adattate alle proprietà di queste funzioni. Sfruttando le caratteristiche specifiche di queste funzioni, PUMA migliora significativamente la precisione dell’approssimazione ottimizzando il tempo di esecuzione e i costi di comunicazione.

Infine, LayerNorm, un’operazione cruciale all’interno del modello Transformer, presenta sfide uniche nell’inferenza sicura a causa della formula di divisione per la radice quadrata. PUMA affronta questo problema ridefinendo in modo intelligente l’operazione utilizzando protocolli sicuri, garantendo così che il calcolo di LayerNorm rimanga sia sicuro che efficiente.

Una delle caratteristiche più importanti di PUMA è la sua integrazione senza soluzione di continuità. Il framework facilita l’inferenza sicura end-to-end per modelli Transformer senza richiedere modifiche significative all’architettura del modello. Ciò significa che è possibile sfruttare modelli Transformer pre-addestrati con uno sforzo minimo. Che si tratti di un modello di linguaggio scaricato da Hugging Face o da un’altra fonte, PUMA mantiene le cose semplici. Si allinea con il flusso di lavoro originale e non richiede un ritraining o modifiche complesse.