Data Commons sta utilizzando l’AI per rendere i dati pubblici del mondo più accessibili e utili’.

Data Commons utilizza l'AI per rendere i dati pubblici più accessibili e utili.

Ogni momento, in tutto il mondo, governi, organizzazioni e molti altri generano dati su argomenti tanto vari quanto la temperatura, il commercio o i tassi di malattia. Sono dati che potrebbero essere straordinariamente utili per comprendere ed affrontare le principali sfide della società come il cambiamento climatico, la fame o le epidemie. Fortunatamente, gran parte di questi dati è pubblicamente disponibile, e ce ne sarà sempre di più. Purtroppo, essere pubblicamente disponibili non significa essere facili da accedere ed utilizzare. Questo è il divario che Data Commons, un’iniziativa di Google, sta cercando di colmare.

I dati sono spesso frammentati da confini statali e nazionali, raccolti e pubblicati da diverse agenzie, istituti di ricerca e altre organizzazioni non governative, e condivisi in diversi formati e tempi. Può essere difficile, dispendioso in termini di tempo e proibitivo in termini di costi, far lavorare insieme questi set di dati pubblici in un modo che sia utile per decisori politici, ricercatori, organizzazioni non profit, giornalisti, studenti e membri del pubblico che cercano di comprendere meglio le questioni sociali e trovare soluzioni. La visione a lungo termine di Data Commons è quella di fare per i dati pubblicamente disponibili ciò che Google Search fa per internet o Google Maps fa per la navigazione: organizzarli e renderli accessibili e utili.

10:25

Il nostro obiettivo di rendere i dati e le informazioni da essi derivate più accessibili a coloro che cercano di comprendere e lavorare sulle sfide e opportunità più urgenti della società è supportato da due innovazioni, con altre in arrivo.

In primo luogo, dal 2017, il team di Data Commons ha cercato di standardizzare e elaborare migliaia di set di dati provenienti da fonti affidabili e pubblicamente disponibili, che vanno dal Gruppo intergovernativo di esperti sul cambiamento climatico delle Nazioni Unite all’Istituto brasiliano di geografia e statistica fino al Dipartimento del Commercio degli Stati Uniti. Questo ha richiesto innovazione per rendere possibile unire dati in formati, schemi e metodi di accesso molto diversi, e per creare un Grafo delle Conoscenze con un’unica API e uno schema, creando una visione unificata. Questa visione unificata permette agli utenti esperti di dati di ottenere in poche ore ciò che normalmente richiederebbe settimane, se non di più. Sebbene avere questi dati standardizzati e accessibili sia stato un enorme passo avanti, utilizzarli tramite API e strumenti di visualizzazione richiedeva comunque un notevole investimento di tempo, e spesso competenze di programmazione, per comprendere ed utilizzare i dati in modo efficace.

In secondo luogo, per affrontare questa problematica e rendere Data Commons ancora più utilizzabile, Data Commons sta ora sfruttando il potere dell’Intelligenza Artificiale, in particolare dei modelli di linguaggio di grandi dimensioni (LLM), per creare un’interfaccia di linguaggio naturale che consente agli utenti di fare domande come: Quali stati in India hanno i più alti livelli di povertà pro capite? Come si confrontano i tassi di alfabetizzazione con la povertà lì? Quanto è cambiata la mortalità infantile nel tempo in questi stati?

Formato video non supportato

L’IA rende possibile fare domande come: “Quali paesi dell’Africa hanno avuto il maggior aumento nell’accesso all’elettricità?” e “Come si correla il reddito con il diabete nelle contee degli Stati Uniti?” o offrire suggerimenti come “Confronta le emissioni di gas serra dall’agricoltura in Europa con il loro PIL?”

I LLM vengono utilizzati per comprendere la query e i risultati provengono direttamente da Data Commons, incluso un link alla fonte originale dei dati; quindi l’output non è generato dai LLM. Questo approccio consente a Data Commons di evitare alcune delle attuali limitazioni note dei LLM in termini di correttezza in alcuni casi.

Data Commons non raccoglie né possiede alcun dato, ma si basa su dati pubblicamente disponibili provenienti da oltre 200 fonti, che coprono migliaia di set di dati tra cui demografia, economia, istruzione, alloggio, salute pubblica, clima, sostenibilità e biomedicina. Ci sono dati provenienti da 194 paesi, in alcuni paesi fino al livello statale o di contea. Tuttavia, i dati finora accessibili non sono distribuiti in modo uniforme né completi: sfortunatamente la disponibilità dei dati riflette molte delle stesse sfide di equità che il mondo affronta su altri problemi, quindi al momento abbiamo più dati per gli Stati Uniti, l’India e i paesi dell’OCSE rispetto ai paesi dell’Africa, dell’America del Sud e di alcune parti dell’Asia. È necessario un lavoro ulteriore e continuativo per rendere disponibili dati aggiuntivi e aggiornati. Speriamo che vengano pubblicati ulteriori dati pubblici per contribuire a colmare le lacune e cerchiamo di aggiungere ulteriori categorie di dati utili per comprendere meglio il mondo e consentire a coloro che lavorano per affrontare sfide urgenti della società. Stiamo cercando attivamente dati aggiuntivi e partner per contribuire a colmare alcune di queste lacune.

Data Commons è open source, un processo aperto e accessibile a tutti. Oltre al sito di Data Commons, un sottoinsieme di punti dati da Data Commons viene utilizzato nelle risposte alle query in Google Search. Stiamo anche collaborando con organizzazioni che utilizzano Data Commons per affrontare le sfide della società: il risultato è un ecosistema in crescita che consente a gruppi come Resources for the Future, Feeding America, l’IIT Madras’ Robert Bosch Centre for Data Science and Artificial Intelligence, la Stanford Doerr School of Sustainability e l’Istituto di Scienze Sociali Quantitative dell’Università di Harvard di avere le proprie versioni di Data Commons, fornendo alle organizzazioni una visione unificata dei propri dati insieme a tutti i dati pubblici già accessibili tramite Data Commons.

Marnie Webb, Chief Community Impact Officer per TechSoup, un partner di lunga data di Google, ha condiviso come Data Commons possa essere utile anche per le piccole organizzazioni non profit con cui lavora la sua organizzazione: “Data Commons offre alle organizzazioni di base l’accesso ai dati di cui hanno bisogno. Fornisce loro gli strumenti per fare domande sulle esigenze della loro comunità nel linguaggio che userebbero per fare una domanda a un collega e per ottenere informazioni affidabili in cambio, come se avessero scienziati e ingegneri dei dati nel loro staff. Stiamo parlando di democratizzazione delle informazioni per prendere decisioni migliori, in modo che le organizzazioni possano assumersi rischi intelligenti per servire meglio le loro comunità. Stiamo parlando di mettere il potere dei dati nelle mani di coloro che conoscono meglio le loro comunità.”

Ad esempio, grazie ai finanziamenti di Google.org, TechSoup sta aiutando le organizzazioni non profit a sfruttare il potere di Data Commons per valutare e affrontare le sfide sociali. Ad esempio, Cemefi sta evidenziando le intersezioni tra fame e genere in Messico e Makaia sta monitorando la crescita economica e sociale in Colombia. TechSoup sta illustrando la relazione tra sicurezza alimentare, agricoltura e cambiamenti climatici riunendo dati da fonti come il Dipartimento dell’Agricoltura degli Stati Uniti (USDA) e Feeding America.

Data Commons è un lavoro in corso. Sebbene il team ci stia lavorando dal 2017, in alcuni modi stiamo appena iniziando e abbiamo bisogno che altri continuino a unirsi a noi in questo lavoro. Per rendere più dati accessibili, abbiamo bisogno di partner che ci aiutino a individuare e colmare le lacune dei dati. E abbiamo bisogno di organizzazioni come TechSoup, Resources for the Future, Feeding America e molte altre che mettano questi dati al lavoro nel tentativo di affrontare alcune delle sfide più grandi del mondo. C’è ancora tanto da fare, insieme.

Scopri di più su come rendere i dati accessibili tramite Data Commons.