Archives par étiquette : RDF

Mettre nos données en réseau – un démonstrateur

Mettre nos données en réseau

Punktokomo, le Blog technique de l’ABES, vient de mettre en ligne une série de billets très pédagogiques présentant un démonstrateur illustrant la publication de données conformément aux principes et aux bonnes pratiques du web sémantique, dont l’intérêt et les limites actuelles sont clairement exprimés à travers des exemples concrets. Huit études de cas détaillées illustrant le travail effectué permettent de bien comprendre la méthodologie suivie selon les sources.

Les données proviennent des réseaux ABES, des éditeurs, des institutions culturelles ou dédiées à l’information scientifique et technique, de l’administration. Sont ainsi traitées (modélisées et converties en RDF pour le plupart) les documents provenant d’Istex, de HAL, du Sudoc, des référentiels de personnes (VIAF, ORCID, Idref, annuaire de chercheurs de l’Université Paris IV), des référentiels d’organismes (répertoire national des structures de recherche/RNSR, structures HAL), des référentiels sujet (Rameau, Library of Congress Subject Headings, les thésaurus MeSH et Nature, la classification du Journal of economic literature), des référentiels de bouquets (bouquet Dalloz) et des localisations (liste des bibliothèques).

Les alignements sont également publiés : alignements entre les auteurs de Nature et ORCID, entre les auteurs de Nature et l’International Standard Name Identifier (ISNI), entre les auteurs HAL et IdRef, entre les chercheurs de Paris 4 et IdRef, entre les auteurs de Persée et IdRef, entre les auteurs de Nature (puisqu’ils ne sont pas identifiés de façon unique dans le dump RDF de Nature), entre les auteurs Springer et IdRef, entre les documents Springer et RAMEAU, entre les domaines HAL et Dewey, entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef.

La modélisation, succinctement présentée, a fait appel, entre autres, aux modèles FRBR pour les documents, Vivo pour les auteurs/contributeurs. Les métadonnées de Nature Publication Group ont été récupérées directement en RDF avec le modèle spécifique à cet éditeur.

Ces données ont été agrégées dans un entrepôt RDF. L’accès aux données se fait via une requête SPARQL sur le point d’accès https://lod.abes.fr/sparql (de nombreux exemples de requête sont présentés dans les différents billets) ou par navigation depuis l’interface https://lod.abes.fr/fct.

Source : Punktokomo ; | Blog technique de l’ABES

Pour réutiliser les données de l’ABES

Le site de l’Agence bibliographique de l’enseignement supérieur (ABES) propose une rubrique spécifique contenant des fiches pratiques sur la présentation des jeux de données réutilisables et sur les méthodes pour récupérer ces données.

Présentation des jeux de données réutilisables

  • Notices bibliographiques du Sudoc en MARC ou en RDF
  • Les notices d’autorité du Sudoc en Marc, en Dublin Core ou RDF
  • Notices des bibliothèques participant au réseau Sudoc et Sudoc-PS en XML
  • Données de theses.fr
  • Données de Star

Méthodes pour récupérer ces données 

  • Transferts réguliers  et exports des notices du Sudoc (réservé aux membres du réseau Sudoc)
  • Serveurs Z39.50 du Sudoc
  • Entrepôts OAI-PMH de l’ABES : pour STAR, Calames et Idref

Sources :

Les notices de la European Library en linked data à télécharger

Staveren, Elco van. Linked Data, September 27, 2013. http://www.flickr.com/photos/103454225@N06/9965173654/.

Le RLUK (Research Libraries UK) et la European Library [1] ( dont le RLUK est membre) ont mis en ligne  17 millions de références en linked open data avec le format RDF turtle. La European Library diffuse près de 22 millions de documents électroniques et 146 millions de références bibliographiques. Elle est composée de  48 bibliothèques nationales et de recherches.

Le billet RLUK/European Library Linked Data Sample sur le blog Aurlog apporte des commentaires sur les choix des formats qui ont été utilisés.

source: “RLUK/European Library Linked Data Sample « Aurlog.” Accessed April 11, 2014. http://www.aurochs.org/aurlog/2014/04/11/rlukeuropean-library-linked-data-sample/.

Hub de métadonnées à l’ABES

L’ABES a mis en ligne (15 juillet 2013) le rapport final de l’ Etude de faisabilité d’un hub de métadonnées ABES destiné offrir un service de « redistribution dans n’importe quel format des métadonnées enrichies récupérées dans n’importe quel format auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases« . Une des missions principales du hub est ainsi d’alimenter le web de données en données enrichies et de qualité.

Les données récupérées proviennent d’éditeurs (Springer : revues, articles, ebooks sous licence nationale, ebooks Dalloz, revues.org) et du SUDOC (thèses antérieures à 1985). Ces données, très hétérogènes, sont converties en RDF sans rien perdre de leur richesse d’origine.

Ce rapport montre très bien et simplement les atouts de RDF dans un tel projet. Il décrit succinctement et clairement le processus (acquisition, analyse des anomalies et de la complétude, normalisation, correction, enrichissement et redistribution des métadonnées), les problèmes rencontrés et les choix qui ont été faits en donnant des exemples concrets correspondant aux corpus traités.

D’une base de données relationnelle au web de données : deux recommandations proposées au W3C le 14/08/2012

Ces recommandations permettent de mapper les données de bases de données relationnelles avec du RDF pour les intégrer au web de données. « A Direct Mapping of Relational Data to RDF »  propose un mappage par défaut (automatic mapping), et « R2RML: RDB to RDF Mapping Language » permet à l’utilisateur de personnaliser le mappage (mapping langage).
Cette étape de recommandation proposée est une une étape majeure vers la dernière étape de Recommandation du W3C, étape à laquelle la norme a été finalisée et appliquée avec succès par plus de deux systèmes, ce qui est déjà le cas puisque ces recommandations sont implémentées dans les outils suivants :

Vu sur W3C Semantic Web activity news

Du Microdata au RDF : un document publié par le W3C

Source : Microdata to RDF : Transformation from HTML+Microdata to RDF. W3C Working Draft 12 January 2012.
https://dvcs.w3.org/hg/htmldata/raw-file/default/ED/microdata-rdf/20120107/index.html
Ce document en statut working draft décrit un algorithme pour  la transformation des microdatas contenues dans le HTML  en RDF[5].

Les microdatas permettent d’intégrer des données dans du HTML en utilisant des attributs qui sont analysés par les moteurs de recherche [1], [2][6].
Le format JSON (JavaScript Object Notation)[4], très utilisé, est l’un des formats qui  permet de les exploiter dans une écriture en Javascript

[1] http://www.notes.3kbo.com/microdata
[2] A propos des microdonnées http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=176035
[3] W3C. HTML microdata http://www.w3.org/TR/microdata/
[4] JSON http://fr.wikipedia.org/wiki/JavaScript_Object_Notation
[5] W3C. RDF http://www.w3.org/RDF/
[6] Google Announces Support for Microformats and RDFa
http://radar.oreilly.com/2009/05/google-announces-support-for-m.html. may 2009.

En quoi c’est intéressant ?
Les  microdonnées de même que les microformats ou RDFa sont très utilisés dans les contenus web en HTML. Leur transformation en RDF permet de leur donner une dimension supplémentaire dans le web de données.

Quel SUDOC demain ?

Le blog [Bibliothèque relaoded] propose un billet très complet sur l’avenir du SUDOC tel qui a été envisagé lors des dernières journées de l’ABES. Si l’auteur du billet semble regretter qu’on ne soit pas allé assez loin dans les apports du Web des données, il présente comment les fonctionnalité et la philosophie des SIGB nouvelles générations modifieraient l’utilisation du SUDOC dans le cadre de SIGB mutualisées. Tous les détails ici.