Dimenticate i 32K di GPT4 LongNet ha un contesto di un miliardo di token

GPT4 LongNet has a billion token context, forget about the 32K

Stanco della limitazione di 2048, 4096, a 32768 token-context di GPT-3 e GPT-4? Microsoft potrebbe avere una risposta per te (Un punto di vista positivo)

Il 19 luglio, Microsoft ha pubblicato un paper che viene considerato un passo avanti significativo nello sviluppo di architetture per sviluppare grandi modelli di linguaggio che potrebbero avere una lunghezza di contesto praticamente illimitata. Microsoft ha proposto e sviluppato un modello di trasformazione che può scalare teoricamente fino a un miliardo di token. Questo rimuove l’ostacolo principale nell’uso pratico dei grandi modelli di linguaggio noti anche come “Restrizione della lunghezza del contesto”.

In questo articolo, esamineremo:

  1. Grandi Modelli di Linguaggio (LLM)
  2. Ricordati di me! il contesto conta
  3. Come ottenere un contesto più ampio
  4. Reti attuali per i LLM
  5. Difficoltà di scalabilità
  6. La soluzione di Microsoft: LongNet
  7. Allenatore distribuito
  8. Risultati e verifica della scalabilità a 1B di token
  9. Considerazioni finali

Quindi, cominciamo.

Grandi Modelli di Linguaggio (LLM)

I Grandi Modelli di Linguaggio sono modelli di apprendimento profondo che sono profondi e hanno milioni, se non miliardi di parametri. Questi modelli sono generalmente addestrati sul corpus di “testo generale” proveniente da Internet. Tale corpus può contenere fino a un trilione di token (cioè, se esiste su Internet, il testo è stato utilizzato per addestrare il grande modello di linguaggio).

Immagina una grande matrice in cui ogni parola è collegata a ogni altra parola in una determinata stringa. Per metterla semplicemente, questo è l’auto-attenzione. Ci interessano le parole o la disposizione delle parole che hanno una relazione più forte perché possono prevedere la parola successiva meglio della relazione più debole. Una relazione può essere profonda fino a 3 livelli o 30 livelli, non importa nel grande schema. Quello che è importante è che l’auto-attenzione determina (almeno in parte) il token successivo. Un token è una parola o una parte della parola, ed è spesso usato come sinonimo di un’unità funzionale della frase.

I grandi modelli di linguaggio, quindi, creano una mappa della lingua dove, dato il testo in input, viene generato un output basato su quella mappa. La mappa è estremamente complessa. Questa mappa è generalmente rappresentata da…