Sbirciare dentro la Scatola di Pandora Svelando le Complessità Nascoste dei Dati di Modelli Linguistici con ‘Che cos’è nel mio Big Data’? (WIMBD)

Svelando le Complessità Nascoste dei Dati di Modelli Linguistici con 'Che cos'è nel mio Big Data'? (WIMBD) Uno Sguardo dentro la Scatola di Pandora

Il machine learning si basa sui dati come suo elemento fondamentale. I nuovi set di dati sono un fattore chiave nella ricerca e nello sviluppo di modelli innovativi, poiché spingono in avanti i progressi nel campo. L’allenamento di modelli più grandi su set di dati più ampi ha comportato un aumento significativo dei costi di calcolo degli esperimenti di intelligenza artificiale nel tempo. Attualmente, alcuni dei set di dati più influenti vengono prodotti estraendo testi da tutto Internet pubblicamente accessibile. Alcuni dei database più grandi mai costruiti di solito vengono presentati senza la documentazione dei loro contenuti, ma solo con una spiegazione su come sono stati generati. 

Questa è una distinzione cruciale poiché attualmente i modelli vengono addestrati su corpora di testo di grandi dimensioni senza alcuna conoscenza dei concetti, degli argomenti, della tossicità o delle informazioni private che potrebbero essere incluse. Nel frattempo, i modelli di linguaggio vengono ora ampiamente utilizzati quotidianamente da persone di tutto il mondo. Poiché questi sistemi di intelligenza artificiale hanno un’influenza diretta sulla vita delle persone, è ora fondamentale comprendere sia i loro vantaggi che i loro svantaggi. I modelli possono imparare solo dai dati su cui sono stati addestrati, ma l’enorme quantità e la mancanza di disponibilità pubblica di corpora di preformazione ne rendono difficile l’analisi. Di solito, un pugno di dimensioni significative sono al centro del lavoro che valuta i contenuti delle corpora di scala Web, e in modo cruciale, è necessario fare ulteriori ricerche analizzando molti set di dati secondo le stesse dimensioni. 

Pertanto, prima di decidere quale set di dati utilizzare, i professionisti del machine learning hanno bisogno di metodi più utili per descrivere le differenze tra di essi. In questo studio, ricercatori dell’Allen Institute for AI, dell’Università di Washington e dell’Università della California propongono di utilizzare una serie di strumenti chiamati WIMBD: WHAT’S IN MY BIG DATA, che aiutano i professionisti a esaminare rapidamente grandi set di dati di linguaggio per studiare il contenuto di grandi corpora di testo. Inoltre, utilizzano questa tecnologia per offrire alcune delle prime misure direttamente confrontabili tra diversi set di dati di scala Web. 

WIMBD ha due parti: (1) un motore di ricerca basato su indice Elasticsearch (ES) che consente l’accesso programmabile alla ricerca di documenti che contengono una query. ES è un motore di ricerca che consente di trovare stringhe all’interno di un corpus insieme ai testi in cui sono comparse e quante volte. (2) Una capacità di conteggio costruita con MapReduce che consente un’iterazione rapida su un intero set di dati e l’estrazione di dati pertinenti, come la distribuzione delle lunghezze dei caratteri dei documenti, i duplicati, i conteggi di dominio, l’identificazione di informazioni personalmente identificabili (PII) e altro ancora. Il codice per WIMBD è open source ed è accessibile su github.com/allenai/wimbd. È estensibile e può essere utilizzato per indicizzare, conteggiare e analizzare diversi corpora su larga scala. Hanno condotto sedici studi su 10 corpora distinti, tra cui C4, The Pile e RedPajama, che vengono utilizzati per addestrare modelli di linguaggio utilizzando queste tecniche. 

Classificano le loro analisi in quattro categorie:

  1. Statistiche dei dati (ad esempio, numero di token e distribuzione di dominio).
  2. Qualità dei dati (ad esempio, misurazione dei documenti duplicati e dei n-grammi più frequenti).
  3. Misure rilevanti per la comunità e la società (ad esempio, contaminazione di benchmark e rilevamento di informazioni personalmente identificabili).
  4. Analisi tra corpora (ad esempio, verifica dell’overlap tra documenti e confronto degli n-grammi più comuni).

La Figura 1 rappresenta una panoramica di WIMBD. Nel loro lavoro vengono presentati numerosi approfondimenti sulla distribuzione dei dati e sulle anomalie. 

Figura 1: Panoramica di WIMBD. Forniscono due funzionalità principali, Count e Search, che facilitano l’elaborazione rapida e forniscono accesso a vaste corpora di testo, consentendo quindi una moltitudine di analisi.

Ad esempio, esaminando la distribuzione delle lunghezze dei documenti, è possibile identificare anomalie in cui alcune lunghezze sono sovrarappresentate rispetto alle lunghezze adiacenti; queste anomalie sono spesso legate a testi creati da modelli quasi esattamente duplicati o documenti tagliati intenzionalmente a una certa lunghezza di caratteri. Un altro esempio sono le sequenze di punteggiatura, spesso gli n-grammi più comuni. Ad esempio, in The Pile, il 10-gramma più comune è un trattino (‘-‘) ripetuto dieci volte. WIMBD fornisce approfondimenti pratici per la cura di corpora di qualità superiore, nonché la documentazione retroattiva e l’ancoraggio del comportamento del modello ai suoi dati di addestramento. Wimbd.apps.allenai.org ha una demo interattiva che mette in evidenza alcune delle loro analisi ed è rilasciato in concomitanza con questa pubblicazione.