Ricercatori dell’Università dell’Oregon e Adobe presentano CulturaX un set di dati multilingue con 6,3T token in 167 lingue, adatto per lo sviluppo di modelli di linguaggio di grandi dimensioni (LLM).

Ricercatori dell'Università dell'Oregon e Adobe presentano CulturaX, un set di dati multilingue con 6,3T token in 167 lingue, per lo sviluppo di modelli di linguaggio di grandi dimensioni (LLM).

Con il miglioramento drammatico delle prestazioni di stato dell’arte in una vasta gamma di compiti e la rivelazione di nuove competenze emergenti, i modelli di linguaggio di grandi dimensioni (LLM) hanno avuto un impatto profondo sulla ricerca e sulle applicazioni di NLP. Per codificare i testi di input in vettori di rappresentazione, sono stati investigati i modelli con solo l’encoder; per creare testi, sono stati studiati i modelli con solo il decoder; e per realizzare la creazione sequenza per sequenza, sono stati studiati i modelli con l’encoder e il decoder. La crescita esponenziale delle dimensioni dei modelli e dei set di dati di addestramento, entrambi richiesti dalle leggi di scala per massime prestazioni, è stata la forza trainante principale dietro le straordinarie capacità dei LLM. Ad esempio, anche se il modello BERT conteneva solo qualche centinaio di milioni di parametri, i modelli basati su GPT più contemporanei ora includono centinaia di miliardi di parametri.

Le dimensioni massive dei modelli e i grandi set di dati di addestramento sono gli elementi principali per il progresso dei modelli di linguaggio di grandi dimensioni (LLM) con straordinarie capacità di apprendimento. Con lo sviluppo di NLP, i LLM sono stati sempre più accessibili al pubblico generale per incoraggiare ulteriori studi e applicazioni pratiche. Tuttavia, i set di dati di addestramento per questi LLM sono tipicamente forniti solo parzialmente, soprattutto per i modelli all’avanguardia più recenti. È necessario un ampio processo di pulizia e deduplicazione dei dati per creare dati di addestramento di alta qualità per i LLM. In questo modo, la necessità di maggiore trasparenza sui dati di addestramento ha ostacolato gli sforzi per replicare scoperte e far progredire il campo della ricerca sulla falsificazione e sul bias nei LLM. Queste difficoltà si aggravano in scenari di apprendimento multilingue a causa della raccolta e della pulizia tipicamente insufficienti delle collezioni di testi multilingue. Di conseguenza, non esiste un buon set di dati open-source che possa essere utilizzato per addestrare LLM in diverse lingue. CulturaX, un massiccio set di dati multilingue che include 6,3 trilioni di token in 167 lingue, è stato sviluppato da una collaborazione di accademici dell’Università dell’Oregon e Adobe Research per affrontare questo problema. Per garantire la massima qualità per l’addestramento del modello, il set di dati viene sottoposto a un rigoroso processo di pulizia e deduplicazione. Questi processi includono l’identificazione delle lingue nel set di dati, il filtraggio del set di dati utilizzando gli URL, la pulizia del set di dati utilizzando metriche, il perfezionamento dei documenti e la deduplicazione dei dati.

CulturaX viene sottoposto a una rigorosa pulizia e deduplicazione a livello di documento per garantire l’addestramento di alta qualità dei LLM in diverse lingue. La procedura di pulizia dei dati utilizza un’intera pipeline per eliminare informazioni inaccurate. Ciò comporta l’eliminazione di distrazioni come l’identificazione errata della lingua, i dati tossici e il materiale non linguistico.

Caratteristiche principali

  • CulturaX è il più grande set di dati open-source multilingue mai completamente pulito e deduplicato per l’utilizzo in applicazioni LLM e NLP.
  • CulturaX fornisce un set di dati multilingue, open-source e massiccio con dati immediatamente applicabili e di alta qualità per addestrare LLM, risolvendo molti problemi con i set di dati attuali.
  • Anche se esistono set di dati open-source multilingue con dati testuali in diverse lingue, come mC4, la loro qualità e scala non soddisfano i requisiti per addestrare in modo efficiente LLM, specialmente modelli generativi come GPT. Ad esempio, come menzionato nell’introduzione, né mC4 né OSCAR forniscono deduplicazione sfocata a livello di documento. L’uso di cld3 porta a un riconoscimento inferiore delle lingue per mC4, che è un altro svantaggio. Sebbene CC100 contenga dati successivi al 2018, BigScience ROOTS fornisce solo un campione dei dati per 46 lingue.

La completa pubblicazione di CulturaX da parte di HuggingFace contribuirà a ulteriori studi sui LLM multilingue e sulle loro applicazioni. Per maggiori informazioni, visita qui https://huggingface.co/datasets/uonlp/CulturaX 

Dovresti dare un’occhiata a CulturaX, un nuovo set di dati multilingue con dati testuali per 167 lingue. Un flusso di lavoro approfondito pulisce ed elimina i duplicati dal set di dati, ottenendo 6,3 trilioni di token. Come un enorme set di dati di alta qualità, CulturaX può essere utilizzato per addestrare facilmente LLM efficaci in diverse lingue. Queste informazioni sono liberamente disponibili al pubblico e i ricercatori sperano che possano ispirare ulteriori studi e utilizzi pratici dell’acquisizione del linguaggio.