Archives de catégorie : Données de la Recherche

Une feuille de route pour les citations des données dans les entrepôts

Les entrepôts de données jouent un rôle central dans la citation des données car ils fournissent des services de gestion et de découverte des données, un accès pérennes aux données, des identifiants uniques et les métadonnées nécessaires. Pour la citation des données, les entrepôts doivent travailler avec différents acteurs comme les éditeurs, les bases de données bibliographiques, les chercheurs.

Un article publié en preprint dans BioRxiv présente une feuille de route pour que l’implémentation de la citation de données par les entrepôts de données, en particulier dans le domaine des sciences de la vie, soit en accord avec la “Joint Declaration of Data Citation Principles“. Ce travail fait partie du projet DCIP Data Citation Implementation Pilot de Force11.

Cet article synthétise et harmonise les principales recommandations existantes et présente 11 recommandations regroupées selon trois niveaux de priorité de mise en place :

  1. Étapes requises pour suivre “the Joint Declaration of Data Citation Principles”,
  2. Étapes recommandées pour faciliter le workflow de publication article/données
  3. Étapes optionnelles pour renforcer la citation de données dans les entrepôts

Ce document insiste sur l’importance pour l’entrepôt de fournir des métadonnées, que ce soit pour la citation ou pour la découverte des jeux de données, dans les formats les plus utilisés : Dublin Core, Schema.org, DataCite et DATS. Il insiste également sur l’importance de la “landing page” à laquelle doit mener l’identifiant persistant attribué au jeu de données, et qui doit fournir les informations sur les données (métadonnées, accès, licence d’utilisation) dans des formats lisibles par les humains et par les machines en utilisant les balises de Schema.org au format JSON-LD (point 7), mais aussi dans des formats de meta-balises en HTML comme PRISM ou encore Dublin Core HTML (point 8) .

La négociation de contenu  entre les différents services (les entrepôts et les services d’enregistrement d’identifiants comme DataCite ou identifier.org) est également mentionnée : les identifiants pérennes (Persistent Identifier ou PID) doivent pointer vers la landing page et des formats sont également préconisés

Les pratiques de la citation de données peuvent être implémentées dans de nouveaux services comme BioCADDIE, un service de recherche de données en biomédecine.

source :

A Data Citation Roadmap for Scholarly Data Repositories [Preprint]. Martin Fenner, Mercè Crosas, Jeffrey Grethe, David Kennedy, Henning Hermjakob, Philippe Rocca-Serra, Robin Berjon, Sebastian Karcher, Maryann Martone, TimothyClark. 

Voir aussi sur le site Inra Gestion et partage des données scientifiques : citer des données

Un site web INRA sur la gestion et le partage des données de la recherche

datapartagebandeau

L’inra s’engage sur le partage des données, en diffusant une Charte pour le libre accès aux publications et aux données  et avec un site web, Datapartage, pour accompagner la gestion des données et présenter l ’offre de services «gestion et partage des données ». Le site propose 4 rubriques : Gérer, Partager, Réutiliser et Technologies.

Les services proposés sont :  attribuer un DOI à un jeu de données INRA, choisir un entrepôt pour déposer ses données, écrire un plan de gestion de donnés à l’aide d’un site dédié et des formations et publier un vocabulaire ou une ontologie. Une offre de formation se met progressivement en place à travers les infodoc express et les classes virtuelles (voir la formation sur les datapapers).

https://www6.inra.fr/datapartage/

Documents complémentaires

Elsevier dataSearch : un nouveau moteur de recherche des données de la recherche

Ce moteur de recherche s’inscrit dans la stratégie de positionnement d’Elsevier sur les services pour la gestion des données de la recherche. Pour rappel,  en novembre 2015 apparaissait Mendeley Data, une fonctionnalité du logiciel Mendeley, racheté par Elsevier en 2013, pour stocker et diffuser des données.

Datasearch permet de chercher dans les entrepôts de données de recherche principaux mais aussi dans les supplementary data. L’outil est pour l’instant en version bêta donc encore sous développement.

En juin 2016 les sources indexées, quelquefois partiellement, étaient (voir la FAQ) :

Les données sont  récupérées à travers les API des différents sites ou  à partir d’une sauvegarde de la base qui a été fournie. A partir de ces sources, Datasearch  standardise les informations dans son modèle de données. La FAQ précise que toutes les données indexées sont en open data, sauf celles de Science Direct.

Une recherche dans Datasearch renvoie tous types de documents mais  une interface à facettes permet de sélectionner le type de document souhaité et les sources des données.

Les types de document qui correspondent aux données sont : Tabular Data, File Set, Raw Data et Statistical Data. La distinction ne semble pas évidente et n’est pas encore décrite.

datasearch

Un exemple de résultat de recherche sur DataSearch

Datasearch demande l’avis des utilisateurs sur les fonctionnalités ou améliorations possibles.

https://datasearch.elsevier.com/

sources :

 

Scholix : lier les données de la recherche et la littérature scientifique

scholix2La Research Data Alliance (RDA) et le  International Council for Science World Data System (ICSU-WDS) ont annoncé un nouvel environnement pour lier les publications et les données de la recherche :  The Scholix framework pour  Scholarly Link Exchange.

Scholix consiste en un ensemble de principes et de guides pratiques  pour implémenter des services facilitant la réutilisation, la reproductibilité  des données et l’évaluation transparente de la science.

Les premières recommendations (Guidelines) sont élaborées dans le groupe de travail de RDA : “WDS-RDA Data Publishing Services Working Group“. Elles expliquent que ce travail s’appuie sur les systèmes qui concentrent déjà l’information sur les liens entre la littérature et les données de la recherche et qui sont issus de différentes communautés, par exemple  :

  • CrossRef : système d’agrégation pour les éditeurs
  • DataCite : système d’agrégation pour les “data centre”
  • OpenAIRE : système d’agrégation pour les entrepôts institutionnels : données, preprints et publications
  • Des lieux d’intégration spécifiques à certains domaines scientifiques comme PubMed, Inspire….

Il y a deux options pour que les systèmes d’informations participent à Scholix (onglet participate) :

  • option 1 : les systèmes d’informations fournissent les liens entre données et publications à travers les schéma de métadonnées standards existants, comme Datacite ou Crossref ;
  • option 2 : le système d’information peut devenir un “hub” et partager ses informations sur les publications et les données en utilisant les standards Scholix décrits dans les “Guidelines“. Le système fournissant ce service sera alors rajouté à la liste des premiers services utilisant ces standards. A voir le DLI service développé par OpenAIRE et Pangaea : http://dliservice.research-infrastructures.eu/index.html#

Sources :

Nouveau DOI pour les données ARGO : avec Seanoe, une nouvelle façon de citer des données dynamiques

 Texte de Frederic Merceur (email Frederic.Merceur@ifremer.fr)  (Ifremer) diffusé sur la liste Renater Acces ouvert le 20 avril 2016 et reproduit avec son aimable autorisation.

Les DOI attribués aux données publiés dans Seanoe (http://www.seanoe.org) permettent de fiabiliser les citations, de simplifier l’accès aux données et de permettre la traçabilité de leur utilisation.

Les données publiées par SEANOE sont accessibles gratuitement. Elles peuvent être réutilisées et contribuer ainsi à une progression plus rapide de la science. Si elles sont citées dans une publication scientifique, un lecteur peut également les rejouer pour vérifier un résultat. La publication et la citation des données dans une publication peuvent donc augmenter la crédibilité de l’étude.

Si les données évoluent dans le temps, plusieurs solutions permettent d’assurer la reproductibilité d’une expérience. Pour les données Argo, une image (snapshot) de l’ensemble des données est figée et conservée tous les mois.

Dans une première version, un DOI principal avait été attribué au jeu de données Argo et des DOI spécifiques avaient été attribués à chaque snapshot mensuel.

Pour se rapprocher des nouvelles recommandations[1] de la Research Data Alliance (RDA), un nouveau DOI unique vient d’être attribué par Seanoe aux données ARGO. Ce DOI unique permet de citer le jeu de données global ou un snaphot spécifique à l’aide du même DOI. Dans cette perspective, chaque snapshot est uploadé dans Seanoe qui lui attribue une URL et une clé. La clé 42350 a par exemple été attribuée au snapshot du 2016-02-08.

La citation du jeu de données global s’effectue en citant le nouveau DOI sans paramètre :

Argo (2000). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC). Seanoe.http://doi.org/10.17882/42182

La citation d’un snapshot spécifique se fait en ajoutant sa clé précédée du caractère # au DOI :

Argo (2016). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC) – Snapshot of Argo GDAC of February, 8th 2016. Seanoe. http://doi.org/10.17882/42182#42350

senaoe

Ce nouveau DOI Argo unique permettra notamment un repérage plus simple des publications qui le citent. Le calcul de statistiques d’utilisation sera également facilité.

Cette solution pour publier les données ARGO dans Seanoe peut-être mise en œuvre pour n’importe quel type de données marines évolutives.

[1] Data Citation of Evolving Data – Research Data Alliancehttps://rd-alliance.org/system/files/documents/RDA-DC-Recommendations_151020.pdf

Data Literature Interlinking service

dli_logo_bigLe portail Data Literature Interlinking Service est un service pilote développé conjointement par le groupe de travail Research Data Alliance Europe/WDS Publishing Data Interest Group, OpenAIRE,  et ICSU World Data System. Basé sur l’outil open source pour la construction d’infrastructures de données D-Net et le moteur de recherche Elasticsearch, il intègre, harmonise et interconnecte jeux de données et publications provenant de diverses sources*, générant un graphe de liens entre les jeux de données et entre les jeux de données et la littérature scientifique. Données et relations sont accessibles via une interface de recherche, via des APIs ou via le protocole OAI-PMH. Des statistiques sur les sources (nombre de jeux de données, de publications et de liens) sont également disponibles. L’enjeu est d’améliorer la visibilité, l’accessibilité et la réutilisation des données.

* Actuellement 19 sources de données :

  • 3TU Datacentrum
  • Australian National Data Service
  • Cambridge Crystallographic Data Centre
  • CrossRef
  • DataCite Resolver
  • Datasets in DataCite
  • Elsevier
  • ICPSR
  • IEDA
  • IEEE
  • OpenAIRE
  • OpenAIRE Resolver
  • PANGAEA
  • PubMed
  • PubMed Resolver
  • RCSB
  • Springer Nature
  • System Deduction
  • Thomson Reuters

Mendeley Data en version test

Mendeley était jusqu’alors une application en ligne pour organiser  annoter  éditer sa partager sa bilbiographie (voir les billets qui abordent Mendeley sur ce blog). L’application est particulièrement utilisée pour récupérer les millions de publications en PDF que les auteurs utilisateurs ont déposé plus ou moins légalement sur la plateforme. Mendeley a été racheté par Elsevier en 2013.

Depuis quelques années le partage des données scientifiques liées aux résultats de la publication devient un enjeu majeur  pour l’intégrité scientifique (pouvoir vérifier le bien fondé des articles) mais aussi pour valoriser la publication,  permettre la réutilisation des données etc. Les revues scientifiques exigent de plus en plus la mise à disposition des données en même que la soumission de l’article.  Plusieurs outils existent pour stocker et diffuser les données : Zenodo, Figshare, Dryad, Pangea… voir la liste des entrepots de données existant  sur http://www.re3data.org/.

Avec Mendeley data,  Elsevier permet aux chercheurs utilisant Mendeley de diffuser  leurs données de recherche. L’application est pour l’instant  en test Bêta. Elle n’apporte rien de très nouveau par rapport aux autres outils cités  (attribution de doi aux données,  licences d’utilisation pour les données et les métadonnées, format de citation du jeu de données). Mais elle permet, pour les utilisateurs de Mendeley, de compléter leur “environnent informationnel”  entre la base de publication des PDF disponibles, le partage de ses propres publications et maintenant les jeux de données.

Les données sont  archivées de manière permanente dans DANS (Data Archiving and Networked Services) situé aux Pays-Bas. Des API (Application Programming Interface) permettront à d’autres applications d’accéder et de s’interfacer avec l’entrepôt de données.

un exemple de dataset dans Mendeley Data

un exemple de dataset dans Mendeley Data

Ce n’est pas vraiment une bonne nouvelle que le principal éditeur scientifique “for profit” se positionne sur ce créneau. La maîtrise par chaque institution du partage  de ses propres  jeux de données est devenu un enjeu primordial pour le fonctionnement d’une science plus ouverte et collaborative.

il vaut mieux déposer ses publications et ses données dans des systèmes institutionnels ou indépendants plutôt que dans des systèmes privés comme Mendeley ou ResearchGate. Voir les prises de position du  CNRS et l’INRIA, et bientôt à l’INRA,  dans ce sens.

source :

Intégration entre Open Journal Systems et Dataverse pour déposer les données de la recherche

source : Altman M., Castro E. , Crosas M., Durbin P , Garnett A., and Whitney J. (2015). Open Journal Systems and Dataverse Integration– Helping Journals to Upgrade Data Publication for Reusable Research . Code {4}lib Journal. http://journal.code4lib.org/articles/10989

Cet article décrit un nouvel outil libre pour la publication des données en “open data” dans le processus de soumission d’un article scientifique à un journal. Il comprend un plugin pour Open Journal Systems (OJS) qui supporte la soumission de données, la citation, l’évaluation et le processus de publication et fonctionne comme une extention du Dataverse Systems qui fournit une API standard de dépôt.

Le dataverse Project a commencé en 2006 à Harvard’s Institute for Quantitative Social Science (IQSS). Il contient maintenant plus de 60 000 ensemble de données de la recherche. Pour plus d’informations sur Open Journal Systems, voir le billet sur ce blog.

Dataverse a developpé une extention SWORD qui permet de déposer des fichiers de données et autres types de document à partir d’autres systèmes comme OJS maintenant mais pourrait aussi être implémenté sur Open Science Framework (voir integrating Dataverse with the Open Science Framework) .

La figure ci-dessous, issu de l’article,  montre le processus de soumission complet. Les auteurs soumettent en même temps le jeu de données et l’article.

dataverse

Une réunion d’experts pour renforcer les aspects sémantiques en agriculture

schemaGACS

from http://aims.fao.org/sites/default/files/files/Breakout_1.pdf

Un workshop “Improving Semantics in Agriculture” a réuni 35 experts  à la FAO les 2 et 3 juillet 2015. Les présentations sont disponibles sur le site AIMS. L’Inra était présent.

L’objectif de ce workshop était de dresser une feuille de route de  gestion de l’information partagée en agriculture en s’appuyant sur le partage de données sémantiques.

Le GACS (“Global Agricultural Concept Scheme”) voir le billet sur ce blog,  a commencé le travail dans cette direction en créant un noyau commun pour les trois thesaurus  majeurs en agriculture – Agrovoc, CAB et NAL – pour créer un entrepôt global de l’information conceptuelle et terminologique.

Il reste encore beaucoup à faire pour créer un point de référence et un hébergement pour les vocabulaires, taxonomies et ontologies en agriculture et nutrition. Après la phase d’expérimentation et de prototype, cette réunion avait pour objectif de proposer des pistes d’ évolutions futures.

Une synthèse “Préworkshop” des besoins de chaque institutions présente a été réuni dans un document. Les présentations des différents intervenants  et l’enregistrement audio des séances sont disponibles sur   http://aims.fao.org/node/117665

Souce “Improving Semantics in Agriculture” Workshop. 2-3 July 2015, FAO HQ. AIMS. http://aims.fao.org/node/117665

GitHub pour les scientifiques : une bonne ou mauvaise manière ouverte d’héberger et de partager les connaissances ?

Sources :

  1. il existe  un service interne pour obtenir un DOI en particulier pour des données,
  2.  concernant Github en tant que forge logiciels, une réflexion est lancée sur la mise en service d’une forge INRA nationale qui garantira la propriété intellectuelle et la pérennité des logiciels,
  3. pour ce qui concerne l’hébergement des données, le chantier interne partage de la donnée a vocation à proposer des solutions de stockage et d’échange des données.