Questo articolo sull’IA introduce un dataset RDF completo con oltre 26 miliardi di triple che coprono dati accademici in tutte le discipline scientifiche.

L'articolo introduce un dataset RDF completo con 26 miliardi di triple che coprono dati accademici in tutte le discipline scientifiche.

Mantenere il passo con la ricerca recente sta diventando sempre più difficile a causa dell’aumento delle pubblicazioni scientifiche. Ad esempio, solo nel 2022 sono stati registrati oltre 8 milioni di articoli scientifici. I ricercatori utilizzano diverse tecniche, dalle interfacce di ricerca ai sistemi di raccomandazione, per investigare entità intellettuali connesse, come autori e istituzioni. Modellare i dati accademici sottostanti come un grafo di conoscenza (KG) RDF è un metodo efficiente. Ciò rende più facile la standardizzazione, la visualizzazione e l’interconnessione con risorse di dati collegati. Di conseguenza, i KG accademici sono essenziali per convertire il materiale accademico centrato sui documenti in strutture di conoscenza collegate e automatizzabili.

Tuttavia, una o più delle seguenti sono limitazioni dei KG accademici esistenti:

  1. Raramente includono un elenco completo di opere da ogni campo.
  2. Spesso coprono solo campi specifici, come l’informatica.
  3. Vengono aggiornati raramente, rendendo molti studi e modelli aziendali obsoleti.
  4. Spesso hanno limitazioni d’uso.
  5. Non sono conformi agli standard W3C come RDF, anche se soddisfano questi criteri.

Questi problemi impediscono la diffusione diffusa dei KG scientifici, come nei sistemi di ricerca approfondita e nei sistemi di raccomandazione o per quantificare l’impatto scientifico. Ad esempio, il Knowledge Graph Accademico di Microsoft (MAKG), suo discendente RDF, non può essere aggiornato perché il Microsoft Academic Graph è stato terminato nel 2021.

Il nuovo dataset OpenAlex cerca di colmare questa lacuna. Tuttavia, i dati di OpenAlex non aderiscono ai Principi dei Dati Collegati e non sono accessibili in RDF. Di conseguenza, OpenAlex non può essere considerato un KG, rendendo difficili le interrogazioni semantiche, l’integrazione delle applicazioni e la connessione a nuove risorse. A prima vista, potrebbe sembrare un modo semplice per includere informazioni accademiche sugli articoli scientifici in Wikidata e sostenere così il movimento WikiCite. Oltre allo schema specifico, la quantità di dati è già così vasta che il triplestore Blazegraph del servizio di interrogazione di Wikidata si avvicina al limite di capacità, bloccando ogni integrazione.

SemOpenAlex, un dataset RDF molto grande del panorama accademico con le sue pubblicazioni, autori, fonti, istituzioni, idee e editori, viene introdotto da ricercatori dell’Istituto di Tecnologia di Karlsruhe e Metaphacts GmbH in questo lavoro. SemOpenAlex ha circa 249 milioni di articoli da tutte le aree accademiche e più di 26 miliardi di triple semantiche. Si basa sulla loro ontologia completa e fa riferimento a ulteriori fonti LOD, tra cui Wikidata, Wikipedia e MAKG. Offrono un’interfaccia SPARQL pubblica per facilitare l’uso rapido ed efficace dell’integrazione di SemOpenAlex con il cloud LOD. Inoltre, forniscono un’interfaccia di ricerca semantica sofisticata che consente agli utenti di recuperare informazioni in tempo reale su entità contenute nel database e sulle loro relazioni semantiche (ad esempio, mostrando co-autori o i concetti più importanti di un autore, che vengono dedotti attraverso un ragionamento semantico anziché essere direttamente contenuti nel database).

Offrono anche snapshot completi dei dati RDF per facilitare l’analisi di grandi quantità di dati. Hanno creato una pipeline che utilizza AWS per aggiornare regolarmente SemOpenAlex completamente senza interruzioni del servizio a causa delle dimensioni di SemOpenAlex e del numero crescente di articoli scientifici integrati in SemOpenAlex. Inoltre, hanno addestrato cutting-edge knowledge graph entity embeddings per l’uso con SemOpenAlex nelle applicazioni downstream. Garantiscono l’interoperabilità del sistema in conformità ai principi FAIR utilizzando ontologie preesistenti quando possibile e aprono la porta all’integrazione di SemOpenAlex nel Linked Open Data Cloud. Offrendo aggiornamenti mensili che consentono un monitoraggio continuo dell’impatto scientifico di un autore, il tracciamento della ricerca premiata e altri casi d’uso che utilizzano i loro dati, colmano il vuoto lasciato dalla terminazione di MAKG. Consentono a gruppi di ricerca provenienti da diverse discipline di accedere ai dati che forniscono e di incorporarli nei loro studi, rendendo SemOpenAlex gratuito e senza restrizioni. Attualmente esistono casi di applicazione iniziale di SemOpenAlex e sistemi di produzione.

Nel complesso, contribuiscono quanto segue:

1. Utilizzano un vocabolario popolare per sviluppare un’ontologia per SemOpenAlex.

2. Su https://semopenalex.org, producono il grafo di conoscenza SemOpenAlex in RDF, che copre 26 miliardi di triple, e rendono tutti i dati, il codice e i servizi di SemOpenAlex disponibili al pubblico.

3. Consentono a SemOpenAlex di partecipare al cloud Linked Open Data rendendo tutti i suoi URI risolvibili. Utilizzando un endpoint SPARQL, indicizzano tutti i dati in un triple store e li rendono accessibili al pubblico in generale.

4. Offrono un’interfaccia di ricerca semantica con disambiguazione delle entità in modo che gli utenti possano accedere, cercare e visualizzare istantaneamente il grafo delle conoscenze e i suoi dati statistici essenziali.

5. Utilizzando calcoli ad alte prestazioni, offrono avanzate rappresentazioni grafiche delle conoscenze per le entità rappresentate in SemOpenAlex.