Sono trapelati i dettagli di GPT-4!

GPT-4 details leaked!

 

Molte persone si sono chieste cosa rende GPT-4 così migliore di GPT-3. Ha fatto impazzire il mondo. È il modello AI più atteso al momento e le persone volevano saperne di più. OpenAI non ha rilasciato nulla riguardo a GPT-4, ad esempio le dimensioni, i dati, la struttura interna o come è stato addestrato e costruito. Tutti ci siamo chiesti perché abbiano nascosto queste informazioni.

Bene, stai per scoprirlo perché i dettagli su GPT-4 sono stati trapelati!

E quali dettagli abbiamo scoperto su GPT-4? Scopriamolo…

 

Dimensioni del modello

 

I modelli di linguaggio di grandi dimensioni (LLM) sono cresciuti nel corso degli anni e le dimensioni del modello riflettono questo. Nel 2022, GPT-3 aveva una dimensione del modello di 1 trilione, che rappresenta un aumento del 15.000 volte negli ultimi 5 anni. Si dice che GPT-4 sia 10 volte più grande del suo predecessore, GPT-3. Si stima che abbia circa 1,8 trilioni di parametri, distribuiti su 120 livelli. Con i suoi 120 livelli, GPT-4 è un’architettura profonda in grado di svolgere varie complesse attività, rendendolo uno dei modelli più avanzati in circolazione!

 

Mischia di esperti

 

OpenAI sta utilizzando MOE – Una miscela di esperti. A differenza di GPT-3 che è un modello statico, GPT è una miscela di 8 modelli da 220 miliardi di parametri. Questi 8 modelli da 220B sono stati addestrati su diversi dati e distribuzioni di compiti, utilizzando 16 esperti all’interno del loro modello. Ogni modello ha circa 111 miliardi di parametri per perceptron multi-strato, e ogni esperto ha un ruolo specifico, ad esempio codifica o formattazione.

La miscela di esperti non è qualcosa di nuovo ed è presente da un po’ di tempo. Ad esempio, Google utilizza una miscela di esperti con instradamento di scelta esperto, il che significa che, a seconda del tipo di domanda che fai, ti indirizza verso un esperto diverso che risponde alle tue domande.

GPT-4 utilizza circa 55 miliardi di parametri solo per l’ “attenzione”, ad esempio per guidare il modello a rimanere sul tema in questione.

 

Inferenza

 

L’inferenza riguarda come i modelli LLM effettuano le previsioni. GPT-4 sta andando piuttosto bene rispetto ad altri modelli. Si dice che ogni passaggio in avanti per la generazione di 1 token utilizzi circa 280 miliardi di parametri e circa 560 teraflops (il tasso per misurare le prestazioni della tua GPU).

 

Set di dati

 

Puoi immaginare quanti set di dati utilizza GPT-4 in base alle sue prestazioni e al fatto di essere un modello di ultima generazione. Si stima che GPT-4 sia addestrato su circa 13 trilioni di token, che corrispondono a circa 10 trilioni di parole. Utilizza 2 epoche per i dati basati su testo e 4 epoche per i dati basati su codice.

La dimensione effettiva del set di dati è sconosciuta, in quanto alcuni di questi token sono stati riutilizzati, quindi possiamo stimare approssimativamente che includa diversi trilioni di token. Internamente, ci sono anche milioni di righe di istruzioni che affinano i dati provenienti da ScaleAI.

 

Lunghezza del contesto

 

Per la fase di pre-addestramento di GPT-4 è stata utilizzata una lunghezza del contesto di 8 mila token. Dopo il pre-addestramento, la lunghezza della sequenza è stata basata sul fine-tuning dei 8 mila token.

 

Dimensione del batch

 

La dimensione del batch è il numero di campioni processati prima dell’aggiornamento del modello. La dimensione del batch aumentava continuamente, con OpenAI che utilizzava una dimensione del batch di 60 milioni, che corrisponde a circa 7,5 milioni di token per esperto. Per conoscere la dimensione effettiva del batch, è necessario dividere questo numero per la lunghezza della sequenza.

 

Costi di addestramento

 

Questa è un’area che interesserà molti di voi: i costi di addestramento. Si può immaginare quanto sia stato costoso costruire e addestrare GPT-4.

È stato necessario a OpenAI circa 2.1e25 FLOPS (operazioni in virgola mobile al secondo) di calcolo per addestrarsi usando circa 25 processori A100 in un periodo di 3 mesi. Si afferma che GPT-4 richiede circa 3 volte più risorse computazionali rispetto a GPT-3.5. Si dice anche che GPT-4 costa 3 volte di più di GPT-3 per quanto riguarda gli input.

Ad esempio, se OpenAI stesse addestrandosi nel cloud e il costo fosse di circa $1 per ogni ora di utilizzo di un processore A100, il costo di addestramento solo per questa ora sarebbe stato di $63 milioni.

Decodifica Speculativa

Si dice anche che OpenAI potrebbe utilizzare la decodifica speculativa. La parola chiave è “potrebbe”. Questo significa che stanno utilizzando modelli più piccoli e veloci per aiutare a decodificare i token, che vengono poi alimentati ai modelli più grandi come un unico batch.

Ciò significa che se le previsioni fatte dal modello più piccolo fossero corrette, il modello più grande sarà d’accordo con queste previsioni. Tuttavia, se il modello più grande respinge le previsioni del modello più piccolo, il resto del batch viene scartato.

Conclusione

Questo leak riflette più un leak di architettura ad alto livello, piuttosto che un leak del modello – ciò che molte persone si aspettavano. Anche se non è la stessa cosa, questo tipo di informazioni è comunque utile da conoscere mentre continuiamo a vedere la crescita dei LLM e quanto ci voglia per creare un modello AI come GPT-4. Nisha Arya è una Data Scientist, Freelance Technical Writer e Community Manager presso VoAGI. È particolarmente interessata a fornire consigli di carriera o tutorial di Data Science e a condividere conoscenze teoriche sulla Data Science. Desidera anche esplorare i diversi modi in cui l’Intelligenza Artificiale può beneficiare la longevità della vita umana. Una studentessa appassionata, desiderosa di ampliare le sue conoscenze tecniche e le sue competenze di scrittura, mentre aiuta gli altri a orientarsi.