Fondant AI rilascia il set di dati Fondant-25M di coppie immagine-testo con licenza Creative Commons

Fondant AI rilascia il set di dati Fondant-25M immagini e testi in coppia, con licenza Creative Commons

La gestione e l’analisi di grandi quantità di dati è chiamata elaborazione di dati su larga scala. Comprende l’estrazione di informazioni preziose, la presa di decisioni informate e la risoluzione di problemi complessi. È fondamentale in vari campi, tra cui il settore aziendale, la scienza, l’assistenza sanitaria e altro ancora. La scelta degli strumenti e dei metodi dipende dalle specifiche esigenze del compito di elaborazione dei dati e dalle risorse disponibili. Linguaggi di programmazione come Python, Java e Scala vengono spesso utilizzati per l’elaborazione dei dati su larga scala. In questo contesto, anche i framework come Apache Flink, Apache Kafka e Apache Storm sono preziosi.

I ricercatori hanno sviluppato un nuovo framework open source chiamato Fondant per semplificare e velocizzare l’elaborazione dei dati su larga scala. Ha vari strumenti incorporati per scaricare, esplorare ed elaborare dati. Include anche componenti per il download tramite URL e il download di immagini.

La sfida attuale con l’IA generativa, come Stable Diffusion e Dall-E, è addestrata su centinaia di milioni di immagini provenienti da Internet, inclusi lavori coperti da copyright. Ciò crea rischi legali e incertezze per gli utenti di queste immagini ed è ingiusto nei confronti dei titolari del copyright che potrebbero non voler riprodurre il proprio lavoro di proprietà senza il consenso.

Per affrontare il problema, i ricercatori hanno sviluppato una pipeline di elaborazione dei dati per creare 500 milioni di set di dati di immagini con licenza Creative Commons per addestrare i modelli generativi di immagini a diffusione latente. Le pipeline di elaborazione dei dati sono passaggi e attività progettate per raccogliere, elaborare e spostare dati da una fonte all’altra, dove possono essere archiviati e analizzati per vari scopi.

La creazione di pipeline di elaborazione dei dati personalizzate comporta diversi passaggi e l’approccio specifico può variare a seconda delle fonti di dati, dei requisiti di elaborazione e degli strumenti. I ricercatori utilizzano il metodo dei blocchi di costruzione per creare pipeline personalizzate. Hanno progettato le pipeline di Fondant per mixare componenti riutilizzabili e componenti personalizzati. Successivamente, le hanno implementate in un ambiente di produzione e hanno impostato l’automazione per l’elaborazione regolare dei dati.

Fondant-cc-25m contiene 25 milioni di URL di immagini con le relative informazioni sulla licenza Creative Commons che possono essere facilmente accessibili in una volta sola! I ricercatori hanno rilasciato un programma di installazione dettagliato passo-passo per gli utenti locali. Per eseguire le pipeline localmente, gli utenti devono avere Docker installato nei propri sistemi con almeno 8 GB di RAM allocati per l’ambiente Docker.

Poiché il dataset rilasciato potrebbe contenere informazioni personali sensibili, i ricercatori hanno progettato i dataset in modo da includere solo informazioni pubbliche e non personali a supporto della conduzione e della pubblicazione delle proprie ricerche in modalità open access. Dicono che la pipeline di filtraggio per il dataset è ancora in corso e sono disposti a ricevere contributi da altri ricercatori per creare pipeline anonime per il progetto. I ricercatori affermano che in futuro vogliono aggiungere componenti diversi come deduplicazione basata su immagini, didascalie automatiche, stima della qualità visiva, rilevamento di watermark, rilevamento di volti, rilevamento di testo e molto altro ancora!