Lavorare con i dataset di Hugging Face
'Hugging Face dataset work'
Scopri come accedere ai dataset su Hugging Face Hub e come puoi caricarli remotamente usando DuckDB e la libreria Datasets
Come piattaforma di intelligenza artificiale, Hugging Face costruisce, allena e distribuisce modelli di apprendimento automatico open source all’avanguardia. Oltre a ospitare tutti questi modelli addestrati, Hugging Face ospita anche dataset ( https://huggingface.co/datasets ), dove puoi utilizzarli per i tuoi progetti.
In questo articolo, ti mostrerò come accedere ai dataset in Hugging Face e come scaricarli programmamente sul tuo computer locale. In particolare, ti mostrerò come:
- caricare i dataset in remoto utilizzando il supporto di DuckDB per httpfs
- trasmettere i dataset utilizzando la libreria Datasets di Hugging Face
Server dei dataset di Hugging Face
Il server dei dataset di Hugging Face è un’API web leggera per visualizzare tutti i diversi tipi di dataset memorizzati su Hugging Face Hub. Puoi utilizzare l’API REST fornita per interrogare i dataset memorizzati su Hugging Face Hub. Le seguenti sezioni forniscono un breve tutorial su ciò che puoi fare con l’API su https://datasets-server.huggingface.co/
.
Ottenere un elenco dei dataset ospitati nel Hub
Per ottenere un elenco di dataset che puoi recuperare da Hugging Face, utilizza la seguente istruzione con il punto di ingresso valid
:
- Mantenere la Qualità dei Dati nei Sistemi di Apprendimento Automatico
- Le competenze che aiutano i data scientist a crescere
- GPT e Psicologia Umana
$ curl -X GET "https://datasets-server.huggingface.co/valid"
Vedrai un risultato JSON come mostrato di seguito:
I dataset che possono funzionare senza errori sono elencati nel valore della chiave valid
nel risultato. Un esempio di dataset valido sopra è 0-hero/OIG-small-chip2
.
Validare un dataset
Per validare un dataset, utilizza la seguente istruzione con il punto di ingresso is-valid
insieme al parametro dataset
:
$ curl -X GET "https://datasets-server.huggingface.co/is-valid?dataset=0-hero/OIG-small-chip2"
Se il dataset è valido, vedrai il seguente risultato:
{"valid":true}