Together AI rilascia RedPajama v2 un dataset aperto con 30 trilioni di token per addestrare grandi modelli di linguaggio.

Together AI lancia RedPajama v2, un dataset aperto con 30 trilioni di token per addestrare modelli di linguaggio di grandi dimensioni.

I dati di alta qualità sono essenziali per il successo degli LLM basati su Llama, Mistral, Falcon, MPT e i modelli RedPajama. Tuttavia, a causa delle anomalie che emergono dalla conversione di HTML in testo normale, delle fonti di qualità generalmente bassa e dei pregiudizi insiti nella diffusione dei contenuti sul web, questi dati non sono raffinati e non ideali per un utilizzo diretto nell’addestramento degli LLM. Raccogliere il dataset corretto e una miscela di dati è un compito noioso che richiede molto tempo, risorse e denaro. Nonostante siano stati realizzati diversi progetti comunitari attorno a questa iniziativa, come C4, RedPajama-1T, Refinedweb (Falcon), Dolma (AI2) e SlimPajama, molti di questi coprono solo una parte delle raccolte di CommonCrawl e offrono un metodo molto limitato di filtraggio dei dati.

Gli studiosi di Together.ai hanno pubblicato RedPajama-1T nel marzo di quest’anno, un dataset di 5 TB – più di 190.000 volte – e li hanno utilizzati in modo fantasioso. Con 1 trilione di token di inglese di alta qualità, RedPajama-1T è stato solo l’inizio. Gli studiosi hanno compiuto un passo avanti pubblicando RedPajama-V2, un vasto dataset online di 30 trilioni di token, il più grande dataset pubblicamente disponibile dedicato ai sistemi di apprendimento automatico basati sull’apprendimento.

Il team ritiene che RedPajama-Data-V2 fornirà un repository di dati online che può essere utilizzato come base per estrarre dataset di alta qualità per l’addestramento degli LLM e come base per uno studio approfondito sui dati di addestramento degli LLM. Affermano che la sua copertura di CommonCrawl (84 dump elaborati) è senza precedenti. Inoltre, includono 40+ annotazioni di qualità: il risultato di più classificatori di machine learning sulla qualità dei dati, risultati di minhash che possono essere utilizzati per la deduplicazione fuzzy o euristici. Uno sviluppatore LLM può utilizzare queste annotazioni per generare rapidamente e facilmente il proprio dataset di pre-addestramento personalizzato tra i dati disponibili pubblicamente.

CommonCrawl è l’elemento principale di RedPajama-V2. RedPajama-V2 è costruito dal basso utilizzando 84 raccolte di CommonCrawl e altri dati web disponibili pubblicamente. Il dataset comprende dati grezzi (testo normale), 40+ annotazioni di alta qualità e cluster di deduplicazione.

Ogni istantanea di CommonCrawl viene prima elaborata tramite il pipeline CCNet come primo passo per assemblare questo dataset. Grazie al suo elaborazione minima, questo pipeline si adatta bene all’idea generale di mantenere il maggior numero possibile di dati nella forma grezza e di consentire ai costruttori di modelli nel pipeline di effettuare il loro filtraggio e riponderazione. Utilizzando il filtro linguistico di CCNet, abbiamo incluso solo l’inglese, il francese, lo spagnolo, il tedesco e l’italiano in questa versione. Questa fase di elaborazione genera cento miliardi di pagine di testo.

Sia per i bucket “head” che “middle”, gli studiosi calcolano oltre 40 delle annotazioni di qualità più popolari e i documenti di testo elaborati da CCNet. Il principale obiettivo di queste annotazioni è promuovere l’indagine sul loro utilizzo ottimale e consentire agli sviluppatori di modelli che lavorano a valle di filtrare o riponderare il dataset secondo i loro criteri. Inoltre, sperano di aggiungere ulteriori segnali di alta qualità con l’aiuto della comunità.

Oltre a queste firme minhash, il team effettua anche una deduplicazione esatta applicando un filtro di Bloom al digest hash sha1 del documento. Questi sono conservati come file di annotazione di qualità separato per consentire il ripristino della distribuzione originale non duplicata per agevolare la ricerca in questo approccio.

RedPajama-v2 ha 113 miliardi di documenti in inglese, tedesco, francese, spagnolo e italiano ed è il risultato dell’elaborazione di 84 raccolte di CommonCrawl. Si stima che i 80 miliardi di documenti nella partizione di coda siano conservati, mentre il conteggio dei documenti e dei token nelle partizioni di testa e di mezzo è determinato prima e dopo la deduplicazione. Il conteggio dei token diminuisce del 60%, ma il numero di documenti diminuisce del 71%, suggerendo che i documenti di coda siano tipicamente più brevi.

Il dataset è stato ridotto di circa il 40% dopo la deduplicazione dei documenti di testa e medio utilizzando un filtro di Bloom. I documenti di testo costituiscono la maggior parte del dataset, compresi le annotazioni di qualità e i cluster di deduplicazione. Il layout è molto simile a quello specificato da CCNet. Più precisamente, le pagine di ciascuna istantanea di CommonCrawl vengono divise in 5k shard, con chiave che indica il frammento, la lingua e il bucket di perplessità (partizione).</p

Il team spera di ampliare presto il loro attuale set di annotazioni di alta qualità per includere cose come annotazioni di contaminazione rispetto ai benchmark LLM ampiamente utilizzati, annotazioni di modellazione degli argomenti e categorizzazione per ogni documento e qualsiasi annotazione aggiuntiva che susciti interesse nella comunità.