GPT-4 8 Modelli in Uno; Il Segreto è Svelato

GPT-4 8 Modelli in Uno; Il Segreto Svelato

Il modello GPT4 è stato finora il modello innovativo disponibile al pubblico, sia gratuitamente che attraverso il loro portale commerciale (per l’uso in beta pubblica). Ha fatto miracoli nell’incendiare nuove idee di progetto e casi d’uso per molti imprenditori, ma il segreto sul numero di parametri e sul modello stava uccidendo tutti gli appassionati che scommettevano sul primo modello a un trilione di parametri fino alle affermazioni dei cento trilioni di parametri!

 

Il gatto è fuori dal sacco

 

Bene, il gatto è fuori dal sacco (in un certo senso). Il 20 giugno, George Hotz, fondatore della startup di guida autonoma Comma.ai, ha rivelato che GPT-4 non è un singolo modello denso monolitico (come GPT-3 e GPT-3.5), ma una miscela di 8 modelli da 220 miliardi di parametri ciascuno.

   

In seguito, Soumith Chintala, co-fondatore di PyTorch presso Meta, ha confermato la fuga di notizie.

   

Proprio il giorno prima, Mikhail Parakhin, responsabile di Microsoft Bing AI, aveva anche accennato a questo.

 

 

GPT 4: Non un monolite

 

Cosa significano tutti i tweet? GPT-4 non è un singolo grande modello, ma un’unione/insieme di 8 modelli più piccoli che condividono l’esperienza. Si dice che ciascuno di questi modelli abbia 220 miliardi di parametri.

   

La metodologia si chiama paradigma del misto di esperti (collegato di seguito). È una metodologia ben nota, chiamata anche idra del modello. Mi ricorda la mitologia indiana, opterò per Ravana.

   

Si prega di prendere con un pizzico di sale che non si tratta di notizie ufficiali, ma membri di alto rango nella comunità dell’IA hanno parlato/accennato a questo. Microsoft deve ancora confermare qualcosa di tutto ciò.

 

Che cos’è un paradigma del misto di esperti?

 

Ora che abbiamo parlato del misto di esperti, facciamo un po’ di immersione su cosa sia questa cosa. Il Mixture of Experts è una tecnica di apprendimento ensemble sviluppata appositamente per le reti neurali. Differisce leggermente dalla tecnica di ensemble generale del modellazione del machine learning convenzionale (quella forma è una forma generalizzata). Quindi si può considerare che il Mixture of Experts negli LLM sia un caso particolare per i metodi di ensemble.

In breve, in questo metodo, un compito viene suddiviso in sotto-compiti, e vengono utilizzati esperti per ogni sotto-compito per risolvere i modelli. È un modo per dividere e conquistare durante la creazione di alberi decisionali. Si potrebbe considerarlo anche come meta-apprendimento sopra i modelli esperti per ogni singolo compito separato.

Un modello più piccolo e migliore può essere addestrato per ogni sotto-compito o tipo di problema. Un meta-modello impara a usare quale modello è migliore nel prevedere un particolare compito. Il meta-apprendista/modello agisce come un vigile del traffico. I sotto-compiti possono sovrapporsi o meno, il che significa che una combinazione delle uscite può essere fusa insieme per ottenere l’output finale.

Per le descrizioni concettuali da MOE a Pooling, tutti i crediti vanno al grande blog di Jason Brownlee (https://machinelearningmastery.com/mixture-of-experts/). Se ti piace ciò che leggi qui sotto, ti prego di iscriverti al blog di Jason e di acquistare uno o due libri per sostenere il suo incredibile lavoro!

Mistura di esperti, MoE o ME per breve, è una tecnica di apprendimento ensemble che implementa l’idea di addestrare esperti su sotto-compiti di un problema di modellazione predittiva.

Nella comunità delle reti neurali, diversi ricercatori hanno esaminato la metodologia di decomposizione. […] La metodologia Mixture-of-Experts (ME) che scompone lo spazio di input, in modo che ogni esperto esamini una parte diversa dello spazio. […] Una rete di portineria è responsabile di combinare i vari esperti.

— Pagina 73, Pattern Classification Using Ensemble Methods, 2010.

Ci sono quattro elementi nell’approccio, sono:

  • Divisione di un compito in sotto-compiti.
  • Sviluppare un esperto per ogni sotto-compito.
  • Usare un modello di portineria per decidere quale esperto utilizzare.
  • Combinare le previsioni e l’output del modello di portineria per fare una previsione.

La figura sottostante, presa dalla pagina 94 del libro del 2012 “Ensemble Methods”, fornisce una panoramica utile degli elementi architettonici del metodo.

 

Come funzionano i 8 modelli più piccoli in GPT4?

 

Il segreto del “Modello degli Esperti” è svelato, capiamo perché GPT4 è così bravo!

 

ithinkbot.com

   

Sotto-task

 

Il primo passo è dividere il problema di modellizzazione predittiva in sotto-task. Spesso questo coinvolge l’uso della conoscenza del dominio. Ad esempio, un’immagine può essere divisa in elementi separati come sfondo, primo piano, oggetti, colori, linee, e così via.

… Il Modello degli Esperti funziona con una strategia divide et impera in cui un compito complesso viene suddiviso in diversi sotto-task più semplici e più piccoli, e i singoli apprendisti (chiamati esperti) vengono addestrati per i diversi sotto-task.

— Pagina 94, Ensemble Methods, 2012.

Per quei problemi in cui la divisione del compito in sotto-task non è ovvia, si potrebbe utilizzare un approccio più semplice e generico. Ad esempio, si potrebbe immaginare un approccio che divide lo spazio delle caratteristiche di input in gruppi di colonne o separa gli esempi nello spazio delle caratteristiche in base a misure di distanza, inlier e outlier per una distribuzione standard, e molto altro.

… nel Modello degli Esperti, un problema chiave è come trovare la divisione naturale del compito e quindi derivare la soluzione complessiva dalle sotto-soluzioni.

— Pagina 94, Ensemble Methods, 2012.

 

Modelli degli Esperti

 

Successivamente, viene progettato un esperto per ogni sotto-task.

L’approccio della miscela degli esperti è stato sviluppato e esplorato inizialmente nel campo delle reti neurali artificiali, quindi tradizionalmente gli esperti stessi sono modelli di reti neurali utilizzati per prevedere un valore numerico nel caso della regressione o una classe nel caso della classificazione.

Dovrebbe essere chiaro che possiamo “inserire” qualsiasi modello per l’esperto. Ad esempio, possiamo utilizzare reti neurali per rappresentare sia le funzioni di gating che gli esperti. Il risultato è noto come rete di densità di miscela.

— Pagina 344, Machine Learning: A Probabilistic Perspective, 2012.

Gli esperti ricevono tutti lo stesso pattern di input (riga) e fanno una previsione.

 

Modello di Gating

 

Viene utilizzato un modello per interpretare le previsioni fatte da ogni esperto e per aiutare a decidere quale esperto fidarsi per un determinato input. Questo viene chiamato modello di gating, o rete di gating, dal momento che tradizionalmente è un modello di rete neurale.

La rete di gating prende in input il pattern di input che è stato fornito ai modelli degli esperti e restituisce il contributo che ogni esperto dovrebbe avere nel fare una previsione per l’input.

… i pesi determinati dalla rete di gating vengono assegnati dinamicamente in base all’input fornito, poiché il Modello degli Esperti impara efficacemente quale porzione dello spazio delle caratteristiche viene appresa da ciascun membro dell’insieme

— Pagina 16, Ensemble Machine Learning, 2012.

La rete di gating è fondamentale per l’approccio e, in effetti, il modello impara a scegliere il sotto-task per un determinato input e, a sua volta, l’esperto di cui fidarsi per fare una previsione accurata.

La miscela degli esperti può essere vista anche come un algoritmo di selezione del classificatore, in cui i classificatori individuali vengono addestrati a diventare esperti in alcune parti dello spazio delle caratteristiche.

— Pagina 16, Ensemble Machine Learning, 2012.

Quando vengono utilizzati modelli di reti neurali, la rete di gating e gli esperti vengono addestrati insieme in modo che la rete di gating impari quando fidarsi di ogni esperto per fare una previsione. Questa procedura di addestramento era tradizionalmente implementata utilizzando l’aspettativa massima (EM). La rete di gating potrebbe avere un output softmax che fornisce un punteggio di confidenza simile a una probabilità per ogni esperto.

In generale, la procedura di addestramento cerca di raggiungere due obiettivi: per gli esperti dati, trovare la funzione di gating ottimale; per una data funzione di gating, addestrare gli esperti sulla distribuzione specificata dalla funzione di gating.

— Pagina 95, Ensemble Methods, 2012.

 

Metodo di Pooling

 

Infine, la miscela di modelli esperti deve effettuare una previsione, e ciò viene ottenuto utilizzando un meccanismo di pooling o aggregazione. Questo potrebbe essere semplicemente la selezione dell’esperto con l’output o la confidenza più elevata fornita dalla rete di gating.

In alternativa, potrebbe essere effettuata una previsione come somma ponderata che combina esplicitamente le previsioni effettuate da ogni esperto e la confidenza stimata dalla rete di gating. Si possono immaginare altri approcci per fare un uso efficace delle previsioni e dell’output della rete di gating.

Il sistema di pooling/combining può quindi scegliere un singolo classificatore con il peso più elevato, o calcolare una somma ponderata degli output del classificatore per ogni classe e selezionare la classe che riceve la somma ponderata più elevata.

— Pagina 16, Ensemble Machine Learning, 2012.

 

Switch Routing

 

Dovremmo anche discutere brevemente di come l’approccio di switch routing differisce dal paper MoE. Lo sto portando alla luce poiché sembra che Microsoft abbia utilizzato uno switch routing anziché un Model of Experts per ridurre la complessità computazionale, ma sono felice di essere smentito. Quando ci sono più modelli di esperti, potrebbero avere un gradiente non banale per la funzione di routing (quale modello utilizzare quando). Questo confine decisionale è controllato dal layer di switch.

I vantaggi del layer di switch sono tripli.

  1. La computazione del routing viene ridotta se il token viene instradato solo verso un singolo modello esperto
  2. La dimensione del batch (capacità dell’esperto) può essere almeno dimezzata poiché un singolo token va a un singolo modello
  3. L’implementazione del routing viene semplificata e le comunicazioni vengono ridotte.

L’overlap dello stesso token su più di 1 modello esperto viene chiamato fattore di capacità. Di seguito è rappresentato concettualmente come funziona il routing con diversi fattori di capacità degli esperti

 

dei token modulati dal fattore di capacità. Ogni token viene instradato all’esperto

con la probabilità di routing più elevata, ma ogni esperto ha una dimensione del batch fissa di

(token totali/num esperti) × fattore di capacità. Se i token sono distribuiti in modo non uniforme,

allora alcuni esperti saranno sovraccarichi (individuati dalle linee rosse tratteggiate), con il risultato

che questi token non vengono elaborati da questo layer. Un fattore di capacità maggiore allevia

questo problema di sovraccarico ma aumenta anche i costi di calcolo e comunicazione

(rappresentati da slot bianchi/vuoti). (fonte https://arxiv.org/pdf/2101.03961.pdf)    

Confrontando il MoE, i risultati del MoE e dello Switch suggeriscono che

  1. I transformer Switch superano i modelli densi accuratamente ottimizzati e i transformer MoE in base a velocità e qualità.
  2. I transformer Switch hanno un’occupazione computazionale inferiore rispetto ai MoE
  3. I transformer Switch hanno prestazioni migliori con fattori di capacità inferiori (1–1.25).

 

Pensieri conclusivi

 

Due avvertenze, in primo luogo, tutto ciò viene da voci di corridoio, e in secondo luogo, la mia comprensione di questi concetti è piuttosto debole, quindi invito i lettori a prenderlo con molta cautela.

Ma cosa ha ottenuto Microsoft mantenendo questa architettura nascosta? Beh, hanno creato un’attenzione e suspense intorno ad essa. Ciò potrebbe averli aiutati a creare meglio le loro narrazioni. Hanno tenuto l’innovazione per sé e hanno evitato che altri li raggiungessero prima. L’intera idea era probabilmente una normale strategia di Microsoft per ostacolare la concorrenza mentre investono 10 miliardi in un’azienda.

Le prestazioni di GPT-4 sono ottime, ma non è un design innovativo o rivoluzionario. È una realizzazione incredibilmente intelligente dei metodi sviluppati dagli ingegneri e dai ricercatori, supportata da un’implementazione imprenditoriale/capitalista. OpenAI non ha né confermato né smentito queste affermazioni (https://thealgorithmicbridge.substack.com/p/gpt-4s-secret-has-been-revealed), il che mi fa pensare che questa architettura per GPT-4 sia molto probabilmente la realtà (cosa fantastica!). Solo non carino! Tutti vogliamo sapere e imparare.

Un enorme merito va ad Alberto Romero per portare questa notizia alla luce e indagare ulteriormente contattando OpenAI (che non ha risposto secondo l’ultimo aggiornamento). Ho visto il suo articolo su Linkedin ma lo stesso è stato pubblicato anche su VoAGI.

    Dr. Mandar Karhade, MD. PhD. Direttore Senior di Advanced Analytics e Data Strategy presso Avalere Health. Mandar è un medico scienziato esperto che lavora sulle implementazioni all’avanguardia dell’IA nell’industria delle Scienze della Vita e della Salute da oltre 10 anni. Mandar fa anche parte di AFDO/RAPS, contribuendo a regolamentare l’implementazione dell’IA nel settore sanitario.

  Originale. Ripubblicato con il permesso.