Crea dataset di machine learning accessibili? Condividili sul Hugging Face Hub!

Crea dataset di machine learning accessibili! Condividili sul Hugging Face Hub!

Per chi è questo post del blog?

Sei un ricercatore che fa ricerca intensiva sui dati o che utilizza l’apprendimento automatico come strumento di ricerca? Come parte di questa ricerca, è probabile che tu abbia creato dataset per addestrare e valutare modelli di apprendimento automatico e, come molti ricercatori, potresti condividere questi dataset tramite Google Drive, OneDrive o il tuo server personale. In questo post, spiegheremo perché potresti voler considerare la condivisione di questi dataset su Hugging Face Hub.

Questo post illustra:

  • Perché i ricercatori dovrebbero condividere apertamente i propri dati (sentiti libero di saltare questa sezione se sei già convinto di questo!)
  • Cosa offre Hugging Face Hub ai ricercatori che desiderano condividere i loro dataset.
  • Risorse per iniziare a condividere i tuoi dataset su Hugging Face Hub.

Perché condividere i tuoi dati?

L’apprendimento automatico viene sempre più utilizzato in diverse discipline, migliorando l’efficienza della ricerca nel affrontare problemi diversi. I dati rimangono cruciali per l’addestramento e la valutazione dei modelli, specialmente nello sviluppo di nuovi metodi di apprendimento automatico per compiti o domini specifici. I modelli di lingua di grandi dimensioni potrebbero non performare bene su compiti specializzati come l’estrazione di entità biomediche, mentre i modelli di visione artificiale potrebbero avere difficoltà nella classificazione di immagini specifiche di domini.

I dataset specifici di dominio sono fondamentali per la valutazione e l’addestramento dei modelli di apprendimento automatico, aiutando a superare le limitazioni dei modelli esistenti. Creare questi dataset, tuttavia, è una sfida che richiede tempo, risorse ed esperienza specifica nel dominio, soprattutto per l’annotazione dei dati. Massimizzare l’impatto di questi dati è cruciale per il beneficio dei ricercatori coinvolti e dei rispettivi campi di ricerca.

Hugging Face Hub può aiutare a raggiungere questo massimo impatto.

Che cos’è Hugging Face Hub?

Il Hugging Face Hub è diventato il punto centrale per la condivisione di modelli di apprendimento automatico, dataset e demo open, ospitando oltre 360.000 modelli e 70.000 dataset. L’Hub permette alle persone, compresi i ricercatori, di accedere a modelli di apprendimento automatico e dataset all’avanguardia con poche righe di codice.

Screenshot dei dataset su Hugging Face HubDataset su Hugging Face Hub.

Cosa offre Hugging Face Hub per la condivisione dei dati?

Questo post di blog non coprirà tutte le funzionalità e i vantaggi dell’hosting dei dataset su Hugging Face Hub, ma evidenzierà alcune che sono particolarmente rilevanti per i ricercatori.

Visibilità per il tuo lavoro

Hugging Face Hub è diventato l’Hub centrale per le persone che collaborano nell’apprendimento automatico aperto. Rendere i tuoi dataset disponibili tramite Hugging Face Hub assicura che siano visibili a un vasto pubblico di ricercatori di apprendimento automatico. L’Hub rende possibile esporre i collegamenti tra dataset, modelli e demo, semplificando la visualizzazione di come le persone utilizzano i tuoi dataset per l’addestramento dei modelli e la creazione di demo.

Strumenti per esplorare e lavorare con i dataset

Vengono creati sempre più strumenti che facilitano la comprensione dei dataset ospitati su Hugging Face Hub.

Strumenti per caricare dataset ospitati su Hugging Face Hub

I dataset condivisi su Hugging Face Hub possono essere caricati tramite una varietà di strumenti. La libreria datasets è una libreria per Python che può caricare direttamente dataset dall’huggingface hub tramite un comando load_dataset. La libreria datasets è ottimizzata per lavorare con dataset di grandi dimensioni (inclusi dataset che non rientrano nella memoria) e supporta i flussi di lavoro di apprendimento automatico.

Accanto a questo, molti dei dataset presenti nell’Hub possono anche essere caricati direttamente in Pandas, Polars e DuckDB. Questa pagina fornisce una panoramica più dettagliata dei diversi modi in cui puoi caricare i dataset dall’Hub.

Visualizzatore dei dataset

Il visualizzatore dei dataset consente alle persone di esplorare e interagire con i dataset ospitati su Hub direttamente nel browser, visitando il repository del dataset su Hugging Face Hub. Ciò rende molto più facile per gli altri visualizzare ed esplorare i tuoi dati senza doverli scaricare prima. Il visualizzatore dei dataset consente anche di cercare e filtrare i dataset, il che può essere prezioso per potenziali utenti dei dataset, per capire più rapidamente la natura di un dataset.

Screenshot di un visualizzatore di dataset su Hub che mostra un dataset di riconoscimento delle entità denominateIl visualizzatore del dataset per il dataset di riconoscimento delle entità denominate multiconer_v2.

Strumenti della community

Oltre al visualizzatore dei dataset, ci sono un numero crescente di strumenti creati dalla community per esplorare i dataset su Hub.

Spotlight

Spotlight è uno strumento che consente di esplorare interattivamente i dataset su Hub con una sola riga di codice.

Puoi saperne di più su come utilizzare questo strumento in questo articolo sul blog.

Lilac

Lilac è uno strumento che mira ad aiutarti a “curare meglio i dati per LLM” e ti consente di esplorare più facilmente i dataset di linguaggio naturale. Lo strumento ti permette di cercare semanticamente il tuo dataset (ricerca per significato), raggruppare i dati e ottenere una visione più generale del tuo dataset.

Puoi esplorare ulteriormente lo strumento Lilac in una demo.

Questo numero crescente di strumenti per esplorare i dataset su Hub rende più facile per le persone esplorare e capire i tuoi dataset e può aiutare a promuovere i tuoi dataset a un pubblico più ampio.

Supporto per dataset di grandi dimensioni

Hub può ospitare grandi dataset; attualmente ospita dataset con centinaia di TB di dati. La libreria dei dataset, che gli utenti possono utilizzare per scaricare e processare i dataset da Hub, supporta lo streaming, rendendo possibile lavorare con grandi dataset senza scaricare l’intero dataset inizialmente. Questo può essere prezioso per consentire ai ricercatori con risorse di calcolo limitate di lavorare con i tuoi dataset, o di selezionare porzioni piccole di un enorme dataset per test, sviluppo o prototipazione.

Screenshot delle informazioni sulla dimensione del file per un datasetHugging Face Hub può ospitare i grandi dataset spesso creati per la ricerca di apprendimento automatico.

Interazione con Hub tramite API e libreria client

L’interazione con Hugging Face Hub tramite un’API o la libreria Python huggingface_hub è possibile. Ciò include la creazione di nuovi repository, l’upload di dati in modo programmato e la creazione e modifica dei metadati per i dataset. Ciò può essere potente per i flussi di lavoro di ricerca in cui vengono continuamente creati nuovi dati o annotazioni. La libreria client rende anche molto più accessibile l’upload di grandi dataset.

Community

Hub è già la casa di una grande comunità di ricercatori, sviluppatori, artisti e altre persone interessate a utilizzare e contribuire a un ecosistema di apprendimento automatico open source. Rendere i tuoi dataset accessibili a questa comunità ne aumenta la visibilità, li apre a nuovi tipi di utenti e colloca i tuoi dataset all’interno del contesto di un ecosistema più ampio di modelli, dataset e librerie.

Hub dispone anche di funzionalità che permettono alle comunità di collaborare più facilmente. Questo include una pagina di discussione per ciascun dataset, modello e Spazio ospitati su Hub. Ciò significa che gli utenti dei tuoi dataset possono rapidamente fare domande e discutere idee per lavorare con un dataset.

Screenshot di una discussione per un dataset su Hub.Hub rende facile fare domande e discutere dei dataset.

Altre funzionalità importanti per i ricercatori

Alcune altre funzionalità dell’Hub potrebbero essere di particolare interesse per i ricercatori che vogliono condividere i propri dataset di machine learning sull’Hub:

  • Organizzazioni ti permettono di collaborare con altre persone e condividere modelli, dataset e demo sotto un’unica organizzazione. Questo può essere un ottimo modo per mettere in evidenza il lavoro di un particolare progetto di ricerca o istituto.
  • Repositories con accesso limitato ti permettono di aggiungere restrizioni di accesso al tuo dataset.
  • I dati sulle metriche di download sono disponibili per i dataset sull’Hub; ciò può essere utile per comunicare l’impatto dei tuoi ricercatori ai finanziatori e alle commissioni di assunzione.
  • Digital Object Identifiers (DOI): è possibile registrare un identificatore persistente per il tuo dataset.

Come posso condividere il mio dataset sull’Hugging Face Hub?

Ecco alcune risorse per aiutarti a iniziare a condividere i tuoi dataset sull’Hugging Face Hub:

Le seguenti pagine saranno utili se si desidera condividere grandi dataset:

Se hai bisogno di ulteriori aiuti per caricare un dataset sull’Hub o se desideri caricare un dataset particolarmente grande, contatta .