Lavorare con i dataset di Hugging Face

'Hugging Face dataset work'

Scopri come accedere ai dataset su Hugging Face Hub e come puoi caricarli remotamente usando DuckDB e la libreria Datasets

Come piattaforma di intelligenza artificiale, Hugging Face costruisce, allena e distribuisce modelli di apprendimento automatico open source all’avanguardia. Oltre a ospitare tutti questi modelli addestrati, Hugging Face ospita anche dataset ( https://huggingface.co/datasets ), dove puoi utilizzarli per i tuoi progetti.

In questo articolo, ti mostrerò come accedere ai dataset in Hugging Face e come scaricarli programmamente sul tuo computer locale. In particolare, ti mostrerò come:

caricare i dataset in remoto utilizzando il supporto di DuckDB per httpfs
trasmettere i dataset utilizzando la libreria Datasets di Hugging Face

Server dei dataset di Hugging Face

Il server dei dataset di Hugging Face è un’API web leggera per visualizzare tutti i diversi tipi di dataset memorizzati su Hugging Face Hub. Puoi utilizzare l’API REST fornita per interrogare i dataset memorizzati su Hugging Face Hub. Le seguenti sezioni forniscono un breve tutorial su ciò che puoi fare con l’API su https://datasets-server.huggingface.co/.

Ottenere un elenco dei dataset ospitati nel Hub

Per ottenere un elenco di dataset che puoi recuperare da Hugging Face, utilizza la seguente istruzione con il punto di ingresso valid:

$ curl -X GET "https://datasets-server.huggingface.co/valid"

Vedrai un risultato JSON come mostrato di seguito:

I dataset che possono funzionare senza errori sono elencati nel valore della chiave valid nel risultato. Un esempio di dataset valido sopra è 0-hero/OIG-small-chip2.

Validare un dataset

Per validare un dataset, utilizza la seguente istruzione con il punto di ingresso is-valid insieme al parametro dataset:

$ curl -X GET "https://datasets-server.huggingface.co/is-valid?dataset=0-hero/OIG-small-chip2"

Se il dataset è valido, vedrai il seguente risultato:

{"valid":true}

Lavorare con i dataset di Hugging Face

'Hugging Face dataset work'

Scopri come accedere ai dataset su Hugging Face Hub e come puoi caricarli remotamente usando DuckDB e la libreria Datasets

Server dei dataset di Hugging Face

Ottenere un elenco dei dataset ospitati nel Hub

Validare un dataset

Diffusione stabile Intuizione di base dietro l’IA generativa

Ricercatori del MIT introducono il campionamento di riavvio per migliorare i processi generativi

Come diventare Data Scientist di Amazon nel...

Come aiuta l’IA nella generazione di ...

Potenziare le intuizioni su Web 3.0 e Block...

Differenza tra Data Science e Statistica

Un’analisi degli stakeholder che i pr...

Una Breve Introduzione all’Intelligen...

Scienza dei dati