Estendere la lunghezza del contesto nei grandi modelli di lingua

Come aumentare la lunghezza del contesto nei modelli di lingua avanzati

Come trasformare il tuo Llama in una giraffa

Immagine dell'autore. (Lama generata da IA)

La lunghezza del contesto si riferisce al numero massimo di token che il modello può ricordare durante la generazione di testo. Un contesto più lungo consente al modello di comprendere meglio le dipendenze a lungo raggio nel testo. I modelli con contesti più lunghi possono stabilire collegamenti tra idee distanti nel testo, generando output più coerenti a livello globale.

Durante l’addestramento, il modello elabora i dati di testo in blocchi o finestre di lunghezza fissa. I modelli devono essere addestrati su testi lunghi per sfruttare effettivamente i contesti lunghi. Le sequenze di addestramento devono contenere documenti, libri, articoli, ecc., con migliaia di token. La lunghezza dei dati di addestramento determina un limite sulla lunghezza del contesto utilizzabile.

Allora, perché non addestrare modelli su sequenze più lunghe?

Non così veloce.

Aumentare la lunghezza del contesto aumenta il numero di possibili combinazioni di token che il modello deve imparare a prevedere accuratamente. Questo consente una modellazione a lungo raggio più robusta, ma richiede anche più memoria e potenza di elaborazione, con conseguenti costi di addestramento più elevati.

Senza alcuna ottimizzazione, il calcolo scala quadraticamente con la lunghezza del contesto, il che significa che un modello a 4096 token richiederà 64 volte più calcolo rispetto a un modello a 512 token.

Puoi utilizzare metodi di attenzione scarsa o approssimata per ridurre il costo di calcolo, ma potrebbero influire anche sull’accuratezza del modello.

Addestrare e utilizzare modelli di linguaggio con contesti lunghi presenta tre sfide principali:

  • Inserire contesti lunghi nel modello.
  • Accelerare l’inferenza e l’addestramento in modo che non richiedano un’eternità.
  • Garantire un’inferenza di alta qualità che mantenga consapevolezza del contesto completo.

L’attenzione è un’operazione complessa

Il meccanismo di attenzione è il componente principale dei modelli transformer. Relaziona diverse posizioni di una sequenza per calcolarne la rappresentazione, consentendo ai modelli di concentrarsi sulle parti rilevanti del testo e comprenderlo meglio. Scalare i transformer a sequenze più lunghe presenta sfide a causa della complessità quadratica dell’attenzione completa.