Archives par étiquette : web de données

Persée ouvre son portail de données liées http://data.persee.fr/

Le portail Persée regroupe 650 000 publications scientifiques accessibles librement et gratuitement et  permet une recherche au travers d’outils de navigation exploitant trois index (documents, illustrations et auteurs) et proposant des fonctionnalités de tri par facettes. L’Unité Mixte de Service Persée propose maintenant l’exposition de ses données au format RDF au travers de son triplestore data.persee.fr.

Il ne s’agit toutefois pas uniquement d’une exposition des données, le portail data.persee.fr. se distingue par :

Des alignements avec des référentiels nationaux et internationaux qui « permettent de questionner non plus seulement les données de Persée, mais également celles proposées par IdRef, DBpedia, data.bnf.fr, le Cairo Gazetteer, GBIF, … en une seule et même requête. » (voir le document source cité en référence)

Plusieurs modes d’exploration sont disponibles : le sparql endpoint pour les initiés et l’outil Sparklis qui permettra au plus grand nombre de formuler ses requêtes en langage naturel, sans connaissance a priori des contenus et de leurs modèles.

Des outils de visualisation des données et jeux de données.

Des services d’accompagnement : tutoriels, formations et des lieux d’interaction avec Persée permettant la co-construction de jeux de données et d’outils pour les exploiter.

Le site http://data.persee.fr/

 

Les contacts pour ce projet sont :

  • Nathalie Fargier | nathalie.fargier@persee.fr | 04 26 73 14 80
  • Viviane Boulétreau | viviane.bouletreau@persee.fr | 04 26 73 14 82

Sources : Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées. 10 février 2017.  http://www.persee.fr/documents/10099/0/Annoncesortiedata.pdf/944c70b4-bd11-4f02-9053-570c44e44577. consulté le 10 févier 2017.

Voir aussi les tutoriels sur le site Canalu.tv : https://www.canal-u.tv/producteurs/persee/data_persee_fr.

 

Mettre nos données en réseau – un démonstrateur

Mettre nos données en réseau

Punktokomo, le Blog technique de l’ABES, vient de mettre en ligne une série de billets très pédagogiques présentant un démonstrateur illustrant la publication de données conformément aux principes et aux bonnes pratiques du web sémantique, dont l’intérêt et les limites actuelles sont clairement exprimés à travers des exemples concrets. Huit études de cas détaillées illustrant le travail effectué permettent de bien comprendre la méthodologie suivie selon les sources.

Les données proviennent des réseaux ABES, des éditeurs, des institutions culturelles ou dédiées à l’information scientifique et technique, de l’administration. Sont ainsi traitées (modélisées et converties en RDF pour le plupart) les documents provenant d’Istex, de HAL, du Sudoc, des référentiels de personnes (VIAF, ORCID, Idref, annuaire de chercheurs de l’Université Paris IV), des référentiels d’organismes (répertoire national des structures de recherche/RNSR, structures HAL), des référentiels sujet (Rameau, Library of Congress Subject Headings, les thésaurus MeSH et Nature, la classification du Journal of economic literature), des référentiels de bouquets (bouquet Dalloz) et des localisations (liste des bibliothèques).

Les alignements sont également publiés : alignements entre les auteurs de Nature et ORCID, entre les auteurs de Nature et l’International Standard Name Identifier (ISNI), entre les auteurs HAL et IdRef, entre les chercheurs de Paris 4 et IdRef, entre les auteurs de Persée et IdRef, entre les auteurs de Nature (puisqu’ils ne sont pas identifiés de façon unique dans le dump RDF de Nature), entre les auteurs Springer et IdRef, entre les documents Springer et RAMEAU, entre les domaines HAL et Dewey, entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef.

La modélisation, succinctement présentée, a fait appel, entre autres, aux modèles FRBR pour les documents, Vivo pour les auteurs/contributeurs. Les métadonnées de Nature Publication Group ont été récupérées directement en RDF avec le modèle spécifique à cet éditeur.

Ces données ont été agrégées dans un entrepôt RDF. L’accès aux données se fait via une requête SPARQL sur le point d’accès https://lod.abes.fr/sparql (de nombreux exemples de requête sont présentés dans les différents billets) ou par navigation depuis l’interface https://lod.abes.fr/fct.

Source : Punktokomo ; | Blog technique de l’ABES

Le Web de données dans les bibliothèques, archives et musées

Les bibliothèques, archives et musées ont consacré ces dernières années un effort considérable pour investir l’univers du Web des données.

La revue Library Technology Reports consacre un numéro spécial à ce sujet identifiant les tendances, les grands projets, les enjeux et les opportunités, les principaux vocabulaires, schémas, standards et technologies utilisés, les services développés.
Mitchell, E. T. (2016). Library Linked Data: Early Activity and Development. Library Technology Reports, 52(1), 37 p. https://journals.ala.org/ltr/issue/download/534/290

Dans le billet critique Linked data caution Jonathan Rochkind (Johns Hopkins University) interroge les motivations et les risques de ce mouvement, où des projets ambitieux et gourmands en ressources peuvent être guidés d’avantage par la technologie que par des objectifs clairement énoncés, au risque de ne répondre ni aux besoins des utilisateurs ni à la volonté de partager des données. Pour lui les principaux obstacles à l’interopérabilité des données et des services concernent avant tout la modélisation des domaines, la description des données et l’utilisation de modèles et référentiels communs (ainsi que la réticence à partager ses données, les modèles économiques des parties prenantes…). Il est important de bien évaluer les potentialités du Web de données dans son projet, se former aux technologies, rester centré sur les besoins des utilisateurs, ne pas sacrifier la qualité des données dans le processus, ne pas investir des ressources importantes dans le projet sans pouvoir en tirer des bénéfices à chaque étape, et, sans attendre que ses données soient publiées dans le Web des données, leur attribuer des identifiants et les partager sous licence libre.

Thésaurus PLOS : test d’appariement avec DBpedia

LD_POC_Fig1-690x320PLOS utilise pour classer ses contenus (subject areas) son propre thésaurus. Relier celui-ci à des ressources externes, en particulier à DBpedia qui est au cœur du nuage de données liées, lui apporterait une visibilité accrue. C’est dans cette optique que des tests ont été réalisés pour mettre en correspondance les termes du thésaurus avec les concepts de DBpedia.

Les tests ont porté sur la section « Psychology » du thésaurus (119 termes), jugée intéressante car mêlant des termes très techniques et des termes du langage courant. La mise en correspondance a été réalisée avec l’API de DBpedia Spotlight. Les URIs et les définitions de DBpedia ont été ensuite importées dans des champs spécifiques du thésaurus (géré avec MAIstro™).

Seuls 59,7% des termes ont pu être appariés sans ambiguïté avec un concept de DBpedia, ce qui n’est pas un résultat suffisant pour s’abstenir de toute intervention manuelle. Par contre DBpedia Spotlight est une aide à l’appariement puisque 72,3% des termes sont apparus parmi les 5 meilleurs résultats pour la mise en correspondance.

L’étape suivante serait de publier le thésaurus dans le Web des données liées, au format SKOS ou OWL, et d’y intégrer les liens vers DBpedia sous forme d’assertions owl:sameAs. D’autres outils comme SILK Linked Data Integration Framework pourraient alors être utilisés pour relier les concepts du thésaurus à des ressources externes.

Article source : PLOS and DBpedia – an experiment towards Linked Data

Bonnes pratiques pour publier des données sur le web [W3C Working Draft]

source : Data on the Web Best Practices
First Public Working Draft
http://www.w3.org/TR/2015/WD-dwbp-20150224/#bp-summary

Ce document, ayant le statut Working draft du W3C, décrit les bonnes pratiques pour encourager la diffusion des données via internet, qu’elles soient issues de l’action des données ouvertes produites par les gouvernements (disponibles sur le Global Open Data Index de l’Open Knowledge Foundation) [1] de la publication des données de recherche encouragée par des institutions comme la Research Data Alliance [2] , de l’analyse ou du moissonnage des médias sociaux, ou encore de la production des données provenant du patrimoine culturel de la BNF [3]. Le Linked Open Data Cloud [4] donne une idée de l’importance de ce phénomène.

Il y a cependant une nécessité fondamentale de compréhension entre les producteurs de données et les utilisateurs.

Le document présente 27 bonnes pratiques qui couvrent différents aspects comme les formats de données, l’accès aux données, l’identification des données et les métadonnées. Un ensemble d’études de cas [5] a été analysé pour rédiger ces bonnes pratiques.

Ce document se veut également plus général que la note Best Practices for Publishing Linked Data [6] et traite d’autres formats comme CSV et JSON ainsi que l’utilisation de vocabulaires.

Notes

MOOC « Web sémantique et Web de données »

video_imageUn cours en ligne ouvert et massif (MOOC) niveau licence, en français, sur les standards du Web de données et du Web sémantique, réalisé par l’Inria dans le cadre du projet IDEFI uTO, se déroulera du 2 mars au 17 avril 2015. Les enseignants sont Fabien Gandon (Inria), Olivier Corby (Inria) et Catherine Faron Zucker (Université Nice Sophia Antipolis)

Pour en savoir plus et pour s’inscrire : https://www.france-universite-numerique-mooc.fr/courses/inria/41002/Trimestre_1_2015/about

Ouverture d’un service d’interrogation des données de data.bnf.fr

logo-data-bnf-frDepuis septembre 2014, data.bnf.fr a ouvert un SPARQL endpoint, service d’interrogation de ses données en RDF (Resource description framework) et qui en facilite la réutilisation dans le web sémantique.
Voir aussi récupérer les données de data.bnf.fr sur le site data.bnf.fr : Web sémantique et modèle de données

Vu sur les Actualités professionnelles de la BNF

Les données liées à la Bibliothèque Nationale des Pays Bas

Theo van Veen et Sieta Neuerburg nous donnent dans le billet « Linked Open Data at the National library of the Netherlands » un aperçu des réalisations et projets en cours de La Bibliothèque Nationale des Pays Bas (Koninklijke Bibliotheek KB) dans le domaine des linked data. Continuer la lecture

WorldCat : ressources disponibles en linked data

Après avoir publié sous forme de données liées :
– la classification décimale Dewey (DDC),
– le fichier d’autorités international virtuel (VIAF) et
– le schéma des vedettes-matières de la Library of Congress Faceted (FAST),
OCLC met à disposition 197 millions de descriptions d’œuvres (WorldCat Works) selon le modèle schema.org étendu à d’autres vocabulaires et sous licence ODC-BY.

Une interface Web permet d’explorer les données liées en navigant à travers leur relations. Pour l’instant, l’accès à cette interface se fait via l’URI d’une entité (par exemple http://worldcat.org/entity/work/id/9027619), l’identifiant étant récupérable via les webservices xID API (il est également présent dans la notice affichée après une recherche sur WorldCat : voir la propriété schema:exampleOfWork dans l’onglet « Données liées »).

En savoir plus : OCLC releases WorldCat Works as linked data
Vu sur LaLIST

Web sémantique : une nouvelle plate-forme de ressources pédagogiques

L’ADBS (Association des professionnels de l’information et de la documentation, secteur Taxonomies-Métadonnées) et le GFII ( Groupement français de l’industrie de l’information , groupe Web Sémantique) se sont associés pour créer une plate-forme de ressources pédagogiques sur le web sémantique et le linked open data.

La première étape de ce projet est un catalogue rassemblant une sélection d’une centaine de documents de référence, sous la forme d’une bibliothèque publique Zotero, et associé à une liste de discussion qui permet à chacun de proposer de nouvelles ressources à partager.

Ce projet est présenté aujourd’hui au salon Documation (lire le communiqué : Plateforme documentaire pour comprendre et partager les enjeux du web sémantique).