Introduzione alla nuova documentazione audio e video in 🤗 Datasets

'Introduzione alla documentazione multimediale in 🤗 Datasets'

I dataset aperti e riproducibili sono essenziali per avanzare nell’apprendimento automatico di qualità. Allo stesso tempo, i dataset sono cresciuti enormemente in dimensioni come carburante per i grandi modelli di linguaggio. Nel 2020, Hugging Face ha lanciato 🤗 Datasets, una libreria dedicata a:

  1. Fornire accesso a dataset standardizzati con una sola riga di codice.
  2. Strumenti per elaborare rapidamente ed efficientemente dataset di grandi dimensioni.

Grazie alla comunità, abbiamo aggiunto centinaia di dataset NLP in molte lingue e dialetti durante lo Sprint dei Dataset! 🤗 ❤️

Ma i dataset di testo sono solo l’inizio. I dati vengono rappresentati in formati più ricchi come 🎵 audio, 📸 immagini e persino una combinazione di audio e testo o immagine e testo. I modelli addestrati su questi dataset consentono applicazioni straordinarie come descrivere cosa c’è in un’immagine o rispondere a domande su un’immagine.

Il team di 🤗 Datasets ha sviluppato strumenti e funzionalità per rendere il lavoro con questi tipi di dataset il più semplice possibile per la migliore esperienza degli sviluppatori. Abbiamo aggiunto nuova documentazione lungo il percorso per aiutarti a imparare di più sul caricamento e l’elaborazione di dataset audio e immagini.

Avvio rapido

L’Avvio rapido è uno dei primi posti in cui i nuovi utenti visitano per avere una panoramica delle funzionalità di una libreria. Ecco perché abbiamo aggiornato l’Avvio rapido per includere come puoi utilizzare 🤗 Datasets per lavorare con dataset audio e immagini. Scegli la modalità di dataset con cui desideri lavorare e scopri un esempio completo di come caricare e elaborare il dataset per prepararlo per l’addestramento con PyTorch o TensorFlow.

Novità anche nell’Avvio rapido è la funzione to_tf_dataset che si occupa di convertire un dataset in un tf.data.Dataset, come una mamma che si prende cura dei suoi cuccioli. Ciò significa che non devi scrivere alcun codice per mescolare e caricare batch dal tuo dataset per farlo interagire correttamente con TensorFlow. Una volta convertito il tuo dataset in un tf.data.Dataset, puoi addestrare il tuo modello con i metodi tradizionali di TensorFlow o Keras.

Scopri l’Avvio rapido oggi stesso per imparare come lavorare con diverse modalità di dataset e provare la nuova funzione to_tf_dataset!

Scegli la tua avventura con il dataset!

Guide dedicate

Ogni modalità di dataset ha particolarità specifiche su come caricarli ed elaborarli. Ad esempio, quando carichi un dataset audio, il segnale audio viene decodificato automaticamente e campionato al volo dalla funzione Audio. Questo è molto diverso dal caricamento di un dataset di testo!

Per rendere la documentazione specifica per ogni modalità più facilmente accessibile, ci sono nuove sezioni dedicate con guide focalizzate su come caricare ed elaborare ciascuna modalità. Se stai cercando informazioni specifiche su come lavorare con una modalità di dataset, dai un’occhiata prima a queste sezioni dedicate. Nel frattempo, le funzioni che non sono specifiche e possono essere utilizzate in modo più ampio sono documentate nella sezione Utilizzo generale. La riorganizzazione della documentazione in questo modo ci permetterà di scalare meglio ad altri tipi di dataset che intendiamo supportare in futuro.

Le guide sono organizzate in sezioni che coprono gli aspetti più essenziali di 🤗 Datasets.

Consulta le guide dedicate per saperne di più sul caricamento e l’elaborazione di dataset per diverse modalità.

ImageFolder

Tipicamente, gli utenti di 🤗 Datasets scrivono uno script di caricamento del dataset per scaricare e generare un dataset con le divisioni train e test appropriate. Con il generatore di dataset ImageFolder, non è necessario scrivere alcun codice per scaricare e generare un dataset di immagini. Il caricamento di un dataset di immagini per la classificazione delle immagini è semplicemente una questione di assicurarsi che il tuo dataset sia organizzato in una cartella come:

cartella/train/cane/golden_retriever.png
cartella/train/cane/german_shepherd.png
cartella/train/cane/chihuahua.png

cartella/train/gatto/maine_coon.png
cartella/train/gatto/bengal.png
cartella/train/gatto/birman.png
Il tuo dataset dei 🐶 dovrebbe assomigliare a questo una volta caricato nell'Hub e visualizzato in anteprima.

Le etichette delle immagini vengono generate in una colonna label in base al nome della directory. ImageFolder ti permette di iniziare immediatamente con un dataset di immagini, eliminando il tempo e lo sforzo necessari per scrivere uno script di caricamento del dataset.

Ma aspetta, diventa ancora meglio! Se hai un file contenente dei metadati sul tuo dataset di immagini, ImageFolder può essere usato per altre attività relative all’immagine come il captioning delle immagini e la rilevazione degli oggetti. Ad esempio, i dataset di rilevazione degli oggetti hanno comunemente delle bounding box, cioè delle coordinate in un’immagine che identificano dove si trova un oggetto. ImageFolder può usare questo file per collegare i metadati relativi alla bounding box e alla categoria di ciascuna immagine alle immagini corrispondenti nella cartella:

{"file_name": "0001.png", "objects": {"bbox": [[302.0, 109.0, 73.0, 52.0]], "categories": [0]}}
{"file_name": "0002.png", "objects": {"bbox": [[810.0, 100.0, 57.0, 28.0]], "categories": [1]}}
{"file_name": "0003.png", "objects": {"bbox": [[160.0, 31.0, 248.0, 616.0], [741.0, 68.0, 202.0, 401.0]], "categories": [2, 2]}}

dataset = load_dataset("imagefolder", data_dir="/percorso/cartella", split="train")
dataset[0]["objects"]
{"bbox": [[302.0, 109.0, 73.0, 52.0]], "categories": [0]}

Puoi utilizzare ImageFolder per caricare un dataset di immagini per quasi ogni tipo di attività relativa all’immagine se hai un file di metadati con le informazioni necessarie. Dai un’occhiata alla guida di ImageFolder per saperne di più.

Cosa succederà dopo?

Come la prima iterazione della libreria 🤗 Datasets ha standardizzato i dataset di testo e li ha resi estremamente facili da scaricare e processare, siamo molto entusiasti di portare lo stesso livello di facilità d’uso ai dataset audio e immagine. In questo modo, speriamo che sia più facile per gli utenti addestrare, costruire e valutare modelli e applicazioni in tutte le diverse modalità.

Nel corso dei prossimi mesi, continueremo ad aggiungere nuove funzionalità e strumenti per supportare il lavoro con dataset audio e immagine. La voce in strada di 🤗 Hugging Face dice che presto ci sarà qualcosa chiamata AudioFolder! 🤫 Mentre aspetti, dai un’occhiata alla guida sul processamento audio e poi mettiti alla prova con un dataset audio come GigaSpeech.


Unisciti al forum per qualsiasi domanda e feedback sul lavoro con dataset audio e immagine. Se scopri dei bug, apri una segnalazione su GitHub, così possiamo occuparcene.

Ti senti un po’ più avventuroso? Contribuisci alla crescente collezione di dataset audio e immagine guidata dalla comunità su Hub! Crea un repository di dataset su Hub e carica il tuo dataset. Se hai bisogno di aiuto, apri una discussione sulla Community tab del tuo repository e menziona uno dei membri del team 🤗 Datasets per aiutarti a raggiungere il traguardo!