Lavorare con i dataset di Hugging Face

'Hugging Face dataset work'

Scopri come accedere ai dataset su Hugging Face Hub e come puoi caricarli remotamente usando DuckDB e la libreria Datasets

Foto di Lars Kienle su Unsplash

Come piattaforma di intelligenza artificiale, Hugging Face costruisce, allena e distribuisce modelli di apprendimento automatico open source all’avanguardia. Oltre a ospitare tutti questi modelli addestrati, Hugging Face ospita anche dataset ( https://huggingface.co/datasets ), dove puoi utilizzarli per i tuoi progetti.

In questo articolo, ti mostrerò come accedere ai dataset in Hugging Face e come scaricarli programmamente sul tuo computer locale. In particolare, ti mostrerò come:

  • caricare i dataset in remoto utilizzando il supporto di DuckDB per httpfs
  • trasmettere i dataset utilizzando la libreria Datasets di Hugging Face

Server dei dataset di Hugging Face

Il server dei dataset di Hugging Face è un’API web leggera per visualizzare tutti i diversi tipi di dataset memorizzati su Hugging Face Hub. Puoi utilizzare l’API REST fornita per interrogare i dataset memorizzati su Hugging Face Hub. Le seguenti sezioni forniscono un breve tutorial su ciò che puoi fare con l’API su https://datasets-server.huggingface.co/.

Ottenere un elenco dei dataset ospitati nel Hub

Per ottenere un elenco di dataset che puoi recuperare da Hugging Face, utilizza la seguente istruzione con il punto di ingresso valid:

$ curl -X GET "https://datasets-server.huggingface.co/valid"

Vedrai un risultato JSON come mostrato di seguito:

I dataset che possono funzionare senza errori sono elencati nel valore della chiave valid nel risultato. Un esempio di dataset valido sopra è 0-hero/OIG-small-chip2.

Validare un dataset

Per validare un dataset, utilizza la seguente istruzione con il punto di ingresso is-valid insieme al parametro dataset:

$ curl -X GET "https://datasets-server.huggingface.co/is-valid?dataset=0-hero/OIG-small-chip2"

Se il dataset è valido, vedrai il seguente risultato:

{"valid":true}