Archives par étiquette : citation de jeu de données

Une feuille de route pour les citations des données dans les entrepôts

Les entrepôts de données jouent un rôle central dans la citation des données car ils fournissent des services de gestion et de découverte des données, un accès pérennes aux données, des identifiants uniques et les métadonnées nécessaires. Pour la citation des données, les entrepôts doivent travailler avec différents acteurs comme les éditeurs, les bases de données bibliographiques, les chercheurs.

Un article publié en preprint dans BioRxiv présente une feuille de route pour que l’implémentation de la citation de données par les entrepôts de données, en particulier dans le domaine des sciences de la vie, soit en accord avec la “Joint Declaration of Data Citation Principles“. Ce travail fait partie du projet DCIP Data Citation Implementation Pilot de Force11.

Cet article synthétise et harmonise les principales recommandations existantes et présente 11 recommandations regroupées selon trois niveaux de priorité de mise en place :

  1. Étapes requises pour suivre “the Joint Declaration of Data Citation Principles”,
  2. Étapes recommandées pour faciliter le workflow de publication article/données
  3. Étapes optionnelles pour renforcer la citation de données dans les entrepôts

Ce document insiste sur l’importance pour l’entrepôt de fournir des métadonnées, que ce soit pour la citation ou pour la découverte des jeux de données, dans les formats les plus utilisés : Dublin Core, Schema.org, DataCite et DATS. Il insiste également sur l’importance de la “landing page” à laquelle doit mener l’identifiant persistant attribué au jeu de données, et qui doit fournir les informations sur les données (métadonnées, accès, licence d’utilisation) dans des formats lisibles par les humains et par les machines en utilisant les balises de Schema.org au format JSON-LD (point 7), mais aussi dans des formats de meta-balises en HTML comme PRISM ou encore Dublin Core HTML (point 8) .

La négociation de contenu  entre les différents services (les entrepôts et les services d’enregistrement d’identifiants comme DataCite ou identifier.org) est également mentionnée : les identifiants pérennes (Persistent Identifier ou PID) doivent pointer vers la landing page et des formats sont également préconisés

Les pratiques de la citation de données peuvent être implémentées dans de nouveaux services comme BioCADDIE, un service de recherche de données en biomédecine.

source :

A Data Citation Roadmap for Scholarly Data Repositories [Preprint]. Martin Fenner, Mercè Crosas, Jeffrey Grethe, David Kennedy, Henning Hermjakob, Philippe Rocca-Serra, Robin Berjon, Sebastian Karcher, Maryann Martone, TimothyClark. 

Voir aussi sur le site Inra Gestion et partage des données scientifiques : citer des données

Nouveau DOI pour les données ARGO : avec Seanoe, une nouvelle façon de citer des données dynamiques

 Texte de Frederic Merceur (email Frederic.Merceur@ifremer.fr)  (Ifremer) diffusé sur la liste Renater Acces ouvert le 20 avril 2016 et reproduit avec son aimable autorisation.

Les DOI attribués aux données publiés dans Seanoe (http://www.seanoe.org) permettent de fiabiliser les citations, de simplifier l’accès aux données et de permettre la traçabilité de leur utilisation.

Les données publiées par SEANOE sont accessibles gratuitement. Elles peuvent être réutilisées et contribuer ainsi à une progression plus rapide de la science. Si elles sont citées dans une publication scientifique, un lecteur peut également les rejouer pour vérifier un résultat. La publication et la citation des données dans une publication peuvent donc augmenter la crédibilité de l’étude.

Si les données évoluent dans le temps, plusieurs solutions permettent d’assurer la reproductibilité d’une expérience. Pour les données Argo, une image (snapshot) de l’ensemble des données est figée et conservée tous les mois.

Dans une première version, un DOI principal avait été attribué au jeu de données Argo et des DOI spécifiques avaient été attribués à chaque snapshot mensuel.

Pour se rapprocher des nouvelles recommandations[1] de la Research Data Alliance (RDA), un nouveau DOI unique vient d’être attribué par Seanoe aux données ARGO. Ce DOI unique permet de citer le jeu de données global ou un snaphot spécifique à l’aide du même DOI. Dans cette perspective, chaque snapshot est uploadé dans Seanoe qui lui attribue une URL et une clé. La clé 42350 a par exemple été attribuée au snapshot du 2016-02-08.

La citation du jeu de données global s’effectue en citant le nouveau DOI sans paramètre :

Argo (2000). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC). Seanoe.http://doi.org/10.17882/42182

La citation d’un snapshot spécifique se fait en ajoutant sa clé précédée du caractère # au DOI :

Argo (2016). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC) – Snapshot of Argo GDAC of February, 8th 2016. Seanoe. http://doi.org/10.17882/42182#42350

senaoe

Ce nouveau DOI Argo unique permettra notamment un repérage plus simple des publications qui le citent. Le calcul de statistiques d’utilisation sera également facilité.

Cette solution pour publier les données ARGO dans Seanoe peut-être mise en œuvre pour n’importe quel type de données marines évolutives.

[1] Data Citation of Evolving Data – Research Data Alliancehttps://rd-alliance.org/system/files/documents/RDA-DC-Recommendations_151020.pdf