Archives par étiquette : Dublin Core

Une feuille de route pour les citations des données dans les entrepôts

Les entrepôts de données jouent un rôle central dans la citation des données car ils fournissent des services de gestion et de découverte des données, un accès pérennes aux données, des identifiants uniques et les métadonnées nécessaires. Pour la citation des données, les entrepôts doivent travailler avec différents acteurs comme les éditeurs, les bases de données bibliographiques, les chercheurs.

Un article publié en preprint dans BioRxiv présente une feuille de route pour que l’implémentation de la citation de données par les entrepôts de données, en particulier dans le domaine des sciences de la vie, soit en accord avec la “Joint Declaration of Data Citation Principles“. Ce travail fait partie du projet DCIP Data Citation Implementation Pilot de Force11.

Cet article synthétise et harmonise les principales recommandations existantes et présente 11 recommandations regroupées selon trois niveaux de priorité de mise en place :

  1. Étapes requises pour suivre “the Joint Declaration of Data Citation Principles”,
  2. Étapes recommandées pour faciliter le workflow de publication article/données
  3. Étapes optionnelles pour renforcer la citation de données dans les entrepôts

Ce document insiste sur l’importance pour l’entrepôt de fournir des métadonnées, que ce soit pour la citation ou pour la découverte des jeux de données, dans les formats les plus utilisés : Dublin Core, Schema.org, DataCite et DATS. Il insiste également sur l’importance de la “landing page” à laquelle doit mener l’identifiant persistant attribué au jeu de données, et qui doit fournir les informations sur les données (métadonnées, accès, licence d’utilisation) dans des formats lisibles par les humains et par les machines en utilisant les balises de Schema.org au format JSON-LD (point 7), mais aussi dans des formats de meta-balises en HTML comme PRISM ou encore Dublin Core HTML (point 8) .

La négociation de contenu  entre les différents services (les entrepôts et les services d’enregistrement d’identifiants comme DataCite ou identifier.org) est également mentionnée : les identifiants pérennes (Persistent Identifier ou PID) doivent pointer vers la landing page et des formats sont également préconisés

Les pratiques de la citation de données peuvent être implémentées dans de nouveaux services comme BioCADDIE, un service de recherche de données en biomédecine.

source :

A Data Citation Roadmap for Scholarly Data Repositories [Preprint]. Martin Fenner, Mercè Crosas, Jeffrey Grethe, David Kennedy, Henning Hermjakob, Philippe Rocca-Serra, Robin Berjon, Sebastian Karcher, Maryann Martone, TimothyClark. 

Voir aussi sur le site Inra Gestion et partage des données scientifiques : citer des données

Pour réutiliser les données de l’ABES

Le site de l’Agence bibliographique de l’enseignement supérieur (ABES) propose une rubrique spécifique contenant des fiches pratiques sur la présentation des jeux de données réutilisables et sur les méthodes pour récupérer ces données.

Présentation des jeux de données réutilisables

  • Notices bibliographiques du Sudoc en MARC ou en RDF
  • Les notices d’autorité du Sudoc en Marc, en Dublin Core ou RDF
  • Notices des bibliothèques participant au réseau Sudoc et Sudoc-PS en XML
  • Données de theses.fr
  • Données de Star

Méthodes pour récupérer ces données 

  • Transferts réguliers  et exports des notices du Sudoc (réservé aux membres du réseau Sudoc)
  • Serveurs Z39.50 du Sudoc
  • Entrepôts OAI-PMH de l’ABES : pour STAR, Calames et Idref

Sources :

Dublin Core : les logiciels sélectionnés par le DCMI

Le site du Dublin Core Metada Initiative publie une liste d’outils permettant des traitements documentaires sur le Dublin Core (extraction, génération, transformation) http://dublincore.org/tools/index.shtml.

Parmi ces outils on retrouve Talend , un outil ETL (Extract Transform Load) présenté lors de l’École Technique “Transformation des données documentaires”. Voir la présentation de Talend.