Il Hugging Face Hub per Gallerie, Biblioteche, Archivi e Musei

'Hugging Face Hub for Galleries, Libraries, Archives, and Museums'

Il Centro Hugging Face per Gallerie, Biblioteche, Archivi e Musei

Cos’è il Centro Hugging Face?

Hugging Face si propone di rendere l’apprendimento automatico di alta qualità accessibile a tutti. Questo obiettivo viene perseguito in vari modi, tra cui lo sviluppo di librerie di codice open source come la libreria Transformers ampiamente utilizzata, l’offerta di corsi gratuiti e la fornitura del Centro Hugging Face.

Il Centro Hugging Face è un repository centrale in cui le persone possono condividere e accedere a modelli di apprendimento automatico, set di dati e demo. Il Centro ospita oltre 190.000 modelli di apprendimento automatico, 33.000 set di dati e oltre 100.000 applicazioni e demo di apprendimento automatico. Questi modelli coprono una vasta gamma di compiti, dai modelli di linguaggio pre-addestrati, ai modelli di classificazione di testo, immagini e audio, ai modelli di rilevamento di oggetti e a una vasta gamma di modelli generativi.

I modelli, i set di dati e le demo ospitate nel Centro coprono una vasta gamma di domini e lingue, con regolari sforzi della comunità per ampliare la portata di ciò che è disponibile tramite il Centro. Questo post del blog intende offrire alle persone che lavorano nel settore delle gallerie, biblioteche, archivi e musei (GLAM) la possibilità di capire come possono utilizzare e contribuire al Centro Hugging Face.

Puoi leggere l’intero post o passare alle sezioni più rilevanti!

  • Se non sai cos’è il Centro, inizia con: Cos’è il Centro Hugging Face?
  • Se vuoi sapere come puoi trovare modelli di apprendimento automatico nel Centro, inizia con: Come puoi usare il Centro Hugging Face: trovare modelli rilevanti nel Centro
  • Se vuoi sapere come puoi condividere set di dati GLAM nel Centro, inizia con: Guida: Aggiungere un set di dati GLAM al Centro?
  • Se vuoi vedere alcuni esempi, dai un’occhiata a: Esempi di uso del Centro Hugging Face

Cosa puoi trovare nel Centro Hugging Face?

Modelli

Il Centro Hugging Face fornisce accesso a modelli di apprendimento automatico che coprono vari compiti e domini. Molte librerie di apprendimento automatico hanno integrazioni con il Centro Hugging Face, che ti permettono di utilizzare direttamente o condividere modelli nel Centro tramite queste librerie.

Set di dati

Il Centro Hugging Face ospita oltre 30.000 set di dati. Questi set di dati coprono una vasta gamma di domini e modalità, tra cui testo, immagini, audio e set di dati multimodali. Questi set di dati sono preziosi per l’addestramento e la valutazione dei modelli di apprendimento automatico.

Spazi

Hugging Face Spaces è una piattaforma che ti permette di ospitare demo e applicazioni di apprendimento automatico. Questi Spazi vanno da semplici demo che ti permettono di esplorare le previsioni fatte da un modello di apprendimento automatico ad applicazioni più complesse.

Gli Spazi semplificano notevolmente l’ospitazione e l’accessibilità della tua applicazione per gli altri utenti. Puoi utilizzare gli Spazi per ospitare applicazioni Gradio e Streamlit, oppure puoi utilizzare gli Spazi per immagini Docker personalizzate. L’utilizzo combinato di Gradio e Spazi spesso significa che puoi avere un’applicazione creata e ospitata con accesso per gli altri utenti in pochi minuti. Puoi utilizzare gli Spazi per ospitare un’immagine Docker se vuoi avere il completo controllo sulla tua applicazione. Ci sono anche modelli Docker che ti consentono di accedere rapidamente a una versione ospitata di molti strumenti popolari, tra cui gli strumenti di annotazione Argailla e Label Studio.

Come puoi usare il Centro Hugging Face: trovare modelli rilevanti nel Centro

Esistono molti potenziali casi d’uso nel settore GLAM in cui i modelli di apprendimento automatico possono essere utili. Mentre alcune istituzioni possono disporre delle risorse necessarie per addestrare modelli di apprendimento automatico da zero, puoi utilizzare il Centro per trovare modelli condivisi apertamente che già fanno ciò che desideri o che sono molto vicini al tuo obiettivo.

Ad esempio, se stai lavorando con una collezione di documenti norvegesi digitalizzati con metadati minimi. Un modo per capire meglio cosa c’è nella collezione è utilizzare un modello di riconoscimento delle entità nominate (NER). Questo modello estrae entità da un testo, ad esempio identificando le località menzionate in un testo. Sapere quali entità sono contenute in un testo può essere un modo prezioso per capire meglio di cosa tratta un documento.

Puoi trovare modelli NER nel Centro filtrando i modelli per compito. In questo caso, scegliamo token-classification, che è il compito che include i modelli di riconoscimento delle entità nominate. Questo filtro restituisce modelli etichettati come facenti token-classification. Poiché stiamo lavorando con documenti norvegesi, potremmo voler filtrare anche per lingua; ciò ci porta a un insieme più ridotto di modelli che vogliamo esplorare. Molti di questi modelli conterranno anche un widget di modello, che ci permette di testare il modello.

Un widget modello può mostrare rapidamente quanto bene un modello probabilmente si comporterà sui nostri dati. Una volta che hai trovato un modello di tuo interesse, l’Hub fornisce diverse modalità di utilizzo di quell’attrezzo. Se sei già familiare con la libreria Transformers, puoi fare clic sul pulsante utilizza in Transformers per ottenere una finestra di dialogo che mostra come caricare il modello in Transformers.

Se preferisci utilizzare un modello tramite un’API, facendo clic sul pulsante deploy in un repository di modelli ti offre varie opzioni per ospitare il modello dietro un’API. Questo può essere particolarmente utile se vuoi provare un modello su una quantità maggiore di dati ma hai bisogno dell’infrastruttura per eseguire i modelli in locale.

Un approccio simile può essere utilizzato anche per trovare modelli e set di dati pertinenti sull’Hub Hugging Face.

Guida: come puoi aggiungere un dataset GLAM all’Hub?

Possiamo rendere i dataset disponibili tramite l’Hub Hugging Face in vari modi. Ti guiderò attraverso un esempio di aggiunta di un dataset CSV all’Hub Hugging Face.

Descrizione del processo di caricamento di un dataset sull’Hub tramite l’interfaccia del browser

Per il nostro esempio, lavoreremo per rendere disponibile il set di addestramento On the Books tramite l’Hub. Questo dataset comprende un file CSV contenente dati che possono essere utilizzati per addestrare un modello di classificazione del testo. Poiché il formato CSV è uno dei formati supportati per il caricamento dei dati sull’Hub Hugging Face, possiamo condividere questo dataset direttamente sull’Hub senza la necessità di scrivere alcun codice.

Crea un nuovo repository di dataset

Il primo passo per caricare un dataset sull’Hub è creare un nuovo repository di dataset. Puoi farlo facendo clic sul pulsante Nuovo dataset nel menu a discesa nell’angolo in alto a destra dell’Hub Hugging Face.

Una volta fatto ciò, puoi scegliere un nome per il tuo nuovo repository di dataset. Puoi anche creare il dataset con un proprietario diverso, ad esempio un’organizzazione, e specificare facoltativamente una licenza.

Carica i file

Dopo aver creato un repository di dataset, dovrai caricare i file di dati. Puoi farlo cliccando su Aggiungi file nella scheda File del repository di dataset.

Ora puoi selezionare i dati che desideri caricare sull’Hub.

Puoi caricare un singolo file o più file utilizzando l’interfaccia di caricamento. Una volta caricato il file, conferma le tue modifiche per finalizzare il caricamento.

Aggiunta di metadati

È importante aggiungere metadati al tuo repository di dataset per rendere il dataset più facilmente rintracciabile e utile per gli altri. Ciò consentirà agli altri di trovare il tuo dataset e capire cosa contiene.

Puoi modificare i metadati utilizzando l’editor Metadata UI. Questo ti consente di specificare la licenza, la lingua, le etichette, ecc., per il dataset.

È anche molto utile descrivere in modo più dettagliato cosa è il tuo dataset, come e perché è stato costruito, e i suoi punti di forza e di debolezza. Puoi farlo in un repository di dataset compilando il file README.md. Questo file fungerà da scheda del dataset per il tuo dataset. Una scheda del dataset è una forma semistrutturata di documentazione per i dataset di apprendimento automatico che mira a garantire che i dataset siano sufficientemente ben documentati. Quando modifichi il file README.md, ti verrà data l’opzione di importare una scheda di dataset di modello. Questo modello ti fornirà prompt utili su cosa è utile includere in una scheda del dataset.

Suggerimento: Scrivere una buona scheda di dataset può richiedere molto lavoro. Tuttavia, non è necessario fare tutto questo lavoro in un’unica volta e poiché le persone possono fare domande o suggerire dataset ospitati su Hub, il processo di documentazione dei dataset può essere un’attività collettiva.

Anteprima dei dataset

Una volta caricato il dataset su Hub, otterremo un’anteprima del dataset. L’anteprima del dataset può essere un modo utile per comprendere meglio il dataset.

Altre modalità di condivisione dei dataset

Puoi utilizzare molti altri approcci per condividere dataset su Hub. La documentazione sui dataset ti aiuterà a capire meglio cosa funzionerà meglio per il tuo caso d’uso specifico.

Perché gallerie, biblioteche, archivi e musei potrebbero voler utilizzare l’Hub di Hugging Face?

Ci sono molte ragioni diverse per cui le istituzioni desiderano contribuire all’Hub di Hugging Face:

  • Esposizione a un nuovo pubblico: l’Hub è diventato una destinazione centrale per le persone che lavorano nell’apprendimento automatico, nell’IA e nei campi correlati. La condivisione su Hub contribuirà ad esporre le tue collezioni e il tuo lavoro a questo pubblico. Ciò apre anche l’opportunità di ulteriori collaborazioni con questo pubblico.

  • Comunità: L’Hub ha molte funzionalità orientate alla comunità, che consentono agli utenti e ai potenziali utenti dei tuoi materiali di fare domande e interagire con i materiali che condividi tramite l’Hub. La condivisione di modelli addestrati e dataset di apprendimento automatico consente anche alle persone di costruire sul lavoro degli altri e abbassa la barriera all’uso dell’apprendimento automatico nel settore.

  • Diversità dei dati di addestramento: Uno dei limiti dell’utilizzo dell’apprendimento automatico nel settore GLAM è la disponibilità di dati pertinenti per l’addestramento e la valutazione dei modelli di apprendimento automatico. I modelli di apprendimento automatico che funzionano bene su dataset di riferimento potrebbero non funzionare altrettanto bene sui dati delle organizzazioni GLAM. La creazione di una comunità per condividere dataset specifici del dominio garantirà che l’apprendimento automatico possa essere perseguito in modo più efficace nel settore GLAM.

  • Cambiamenti climatici: L’addestramento di modelli di apprendimento automatico produce una impronta di carbonio. La dimensione di questa impronta dipende da vari fattori. Un modo per ridurre collettivamente questa impronta è condividere modelli addestrati con la comunità in modo che le persone non duplichino gli stessi modelli (e generino più emissioni di carbonio nel processo).

Esempi di utilizzo dell’Hub di Hugging Face

Individui e organizzazioni già utilizzano l’Hub di Hugging Face per condividere modelli di apprendimento automatico, dataset e demo relativi al settore GLAM.

BigLAM

Un’iniziativa sviluppata nell’ambito del progetto BigScience si concentra sulla resa più accessibili dei dataset GLAM rilevanti per l’apprendimento automatico. BigLAM ha finora reso disponibili oltre 30 dataset relativi a GLAM tramite l’Hub di Hugging Face.

Nasjonalbiblioteket AI Lab

Il laboratorio di intelligenza artificiale presso la Biblioteca nazionale della Norvegia è un utente molto attivo dell’Hub di Hugging Face, con ~120 modelli, 23 dataset e sei demo di apprendimento automatico condivisi pubblicamente. Questi modelli includono modelli di linguaggio addestrati su testi norvegesi provenienti dalla Biblioteca nazionale della Norvegia e modelli Whisper (speech-to-text) addestrati su lingue sami.

Smithsonian Institution

Lo Smithsonian ha condiviso un’applicazione ospitata su Hugging Face Spaces, che dimostra due modelli di apprendimento automatico addestrati per identificare le specie di pesci amazzonici. Questo progetto mira a fornire strumenti alle comunità che consentiranno una misurazione più accurata del numero di specie di pesci nell’Amazzonia. Rendendo strumenti come questi disponibili tramite una demo Spaces, si abbassa ulteriormente la barriera per le persone che vogliono utilizzare questi strumenti.

Fonte

Funzionalità di Hub per gallerie, biblioteche, archivi e musei

L’Hub supporta molte funzionalità che aiutano a rendere l’apprendimento automatico più accessibile. Alcune funzionalità che possono essere particolarmente utili per le istituzioni GLAM includono:

  • Organizzazioni: puoi creare un’organizzazione su Hub. Questo ti consente di creare un luogo dove condividere i manufatti della tua organizzazione.
  • Assegnazione di DOI: un DOI (Digital Object Identifier) è un identificatore digitale persistente per un oggetto. I DOI sono diventati essenziali per creare identificatori persistenti per pubblicazioni, dataset e software. Un identificatore persistente è spesso richiesto da riviste, conferenze o finanziatori di ricerca quando si fa riferimento a prodotti accademici. L’Hub di Hugging Face supporta l’emissione di DOI per modelli, dataset e demo condivisi su Hub.
  • Tracciamento dell’utilizzo: puoi visualizzare le statistiche di download per dataset e modelli ospitati su Hub mensilmente o vedere il numero totale di download nel tempo. Queste statistiche possono essere un modo prezioso per le istituzioni per dimostrare il loro impatto.
  • Condivisione dei dataset tramite script: se hai già un dataset ospitato altrove, puoi comunque fornire accesso ad essi tramite l’Hub di Hugging Face utilizzando uno script di caricamento del dataset.
  • Controllo di accesso a modelli e dataset: ci sono circostanze in cui desideri avere un maggiore controllo su chi accede a modelli e dataset. L’Hub di Hugging Face supporta il controllo di accesso a modelli e dataset, consentendoti di aggiungere controlli di accesso.

Come posso ottenere aiuto utilizzando il Hub?

La documentazione del Hub approfondisce le diverse funzionalità del Hugging Face Hub. Puoi anche trovare ulteriori informazioni su come condividere dataset sul Hub e informazioni su come condividere modelli Transformers sul Hub.

Se hai bisogno di assistenza durante l’utilizzo del Hugging Face Hub, ci sono diverse vie che puoi esplorare. Puoi cercare aiuto utilizzando il forum di discussione o attraverso un server Discord.