Abacus AI presenta un nuovo modello di linguaggio a lungo contesto aperto LLM incontrate Giraffe

Abacus AI presenta LLM Giraffe, un nuovo modello di linguaggio a lungo contesto aperto.

I modelli di linguaggio recenti possono prendere in input contesti lunghi; è necessario saperne di più su quanto bene utilizzino contesti più lunghi. È possibile estendere i LLM (Large Language Models) a contesti più lunghi? Questa è una domanda senza risposta. I ricercatori di Abacus AI hanno condotto molteplici esperimenti che coinvolgono diversi schemi per sviluppare la capacità di lunghezza del contesto di Llama, che è pre-addestrato su una lunghezza del contesto di 2048. Hanno ridimensionato linearmente questi modelli con IFT (Interpolation with Fourier Transform) a scale di 4 e 16. Ridimensionando il modello a scala 16, è possibile eseguire attività mondiali fino a una lunghezza del contesto di 16k o addirittura fino a una lunghezza del contesto di 20-24k.

Diversi metodi per estendere la lunghezza del contesto sono il ridimensionamento lineare, il ridimensionamento della base di Fourier dell’embedding di posizione rotatoria (RoPE) tramite una potenza, la troncatura della base di Fourier e la randomizzazione del vettore di posizione. I ricercatori di Abacus AI hanno affinato i modelli utilizzando il dataset RedPajama combinato con il dataset Vicuna, implementando i metodi sopra citati. Hanno scoperto che il ridimensionamento lineare era robusto ma aumentava la lunghezza del contesto del modello. La troncatura e la randomizzazione hanno ottenuto punteggi di perplessità elevati ma hanno avuto prestazioni inferiori nel compito di recupero.

Per valutare questi modelli, i ricercatori hanno utilizzato dataset da LMSys, dataset di domande e risposte su libri aperti e WikiQA. I dataset di LMSys sono stati utilizzati per individuare una sottostringa nel contesto. Il compito di WikiQA consiste nel rispondere a una domanda in base alle informazioni fornite in un documento di Wikipedia.

Il team ha costruito un compito di domande e risposte basato sul formato di breve risposta utilizzando dati di Google Natural Questions. Hanno assicurato che l’output sia solo una copia-incolla di una breve risposta dal documento originale. Ciò consente di individuare esattamente dove il LLM è supposto di guardare ed valutare in modo efficace ogni parte della lunghezza del contesto esteso posizionando la risposta in posizioni diverse. Hanno inoltre creato versioni multiple dello stesso documento di Wikipedia con dimensioni variabili, il che ha permesso loro di ottenere una valutazione equa tra le dimensioni del modello.

Il problema con il dataset basato su Wikipedia è che il modello rispondeva dai suoi testi pre-addestrati anziché dal contesto. I ricercatori hanno risolto questo problema creando un dataset modificato composto da domande con solo risposte numeriche. Hanno modificato le risposte e ogni occorrenza della risposta nel documento in un numero diverso. Ciò farà sì che il modello risponda in modo errato se il LLM ricorda dai suoi testi pre-addestrati. Hanno chiamato il compito di domande e risposte originale Free Form QA (FFQA) e il compito modificato Altered Numerical QA (AltQA).

I ricercatori di AbacusAI hanno valutato la Precisione della Presenza su ogni esempio in entrambe le versioni dei compiti di domande e risposte. La Precisione della Presenza viene misurata in base al fatto che la risposta sia presente come sottostringa nella soluzione generata dal modello. Hanno osservato che un aumento della precisione da IFT non conferisce alcuna estensione alla gamma di lunghezze del contesto che il modello può raggiungere.

I ricercatori mostrano che IFT con contesto ridimensionato porta a un significativo miglioramento delle prestazioni. Hanno osservato un miglioramento del 2x in FFQA e del 2,5x in AltQA in tutte le posizioni interpolate dal fattore di contesto scala. Infine, il loro lavoro di ricerca suggerisce un modello di linguaggio con contesto più ampio, che migliora la perplessità perché cattura meglio e più facilmente il tema di un documento.