Archives par étiquette : entrepôt de données

Le « Research Data Shared Service » du Jisc intègre une solution de préservation à long terme

Le JISC (Joint Information Systems Committe – UK ) construit un data pilot pour un service de données ( Research Data Shared Service RDSS ) à destination des institutions de l’éducation supérieure du Royaume Uni.  RDSS sera un service partagée pour conserver les données (data curation) et de fournir des services (interopérabilité…) pour les institutions. RDSS produira un nouveau système qui pourra être proposé comme un service de gestion de données allégeant le travail des services informatiques des institutions et comme un fournisseur de services en gestion de données, mais aussi en consultance pour que les institutions puissent implémenter leur politique sur les données.

Le projet fournira des services dans les domaines suivants :  entrepôts de données,  plateformes de préservation,  plateformes de rapports sur les données, services de développements autour de plugin sur les entrepôts, interopérabilité avec des systèmes externes et expérience utilisateurs.

Dans ce projet , Arkivum, un fournisseur de solutions pour conserver les données  sur le long terme,  interviendra en s’appuyant sur Artefactual  l’un des développeurs de la solution open source Archivematica.

 

Source :

Une feuille de route pour les citations des données dans les entrepôts

Les entrepôts de données jouent un rôle central dans la citation des données car ils fournissent des services de gestion et de découverte des données, un accès pérennes aux données, des identifiants uniques et les métadonnées nécessaires. Pour la citation des données, les entrepôts doivent travailler avec différents acteurs comme les éditeurs, les bases de données bibliographiques, les chercheurs.

Un article publié en preprint dans BioRxiv présente une feuille de route pour que l’implémentation de la citation de données par les entrepôts de données, en particulier dans le domaine des sciences de la vie, soit en accord avec la « Joint Declaration of Data Citation Principles« . Ce travail fait partie du projet DCIP Data Citation Implementation Pilot de Force11.

Cet article synthétise et harmonise les principales recommandations existantes et présente 11 recommandations regroupées selon trois niveaux de priorité de mise en place :

  1. Étapes requises pour suivre « the Joint Declaration of Data Citation Principles »,
  2. Étapes recommandées pour faciliter le workflow de publication article/données
  3. Étapes optionnelles pour renforcer la citation de données dans les entrepôts

Ce document insiste sur l’importance pour l’entrepôt de fournir des métadonnées, que ce soit pour la citation ou pour la découverte des jeux de données, dans les formats les plus utilisés : Dublin Core, Schema.org, DataCite et DATS. Il insiste également sur l’importance de la « landing page » à laquelle doit mener l’identifiant persistant attribué au jeu de données, et qui doit fournir les informations sur les données (métadonnées, accès, licence d’utilisation) dans des formats lisibles par les humains et par les machines en utilisant les balises de Schema.org au format JSON-LD (point 7), mais aussi dans des formats de meta-balises en HTML comme PRISM ou encore Dublin Core HTML (point 8) .

La négociation de contenu  entre les différents services (les entrepôts et les services d’enregistrement d’identifiants comme DataCite ou identifier.org) est également mentionnée : les identifiants pérennes (Persistent Identifier ou PID) doivent pointer vers la landing page et des formats sont également préconisés

Les pratiques de la citation de données peuvent être implémentées dans de nouveaux services comme BioCADDIE, un service de recherche de données en biomédecine.

source :

A Data Citation Roadmap for Scholarly Data Repositories [Preprint]. Martin Fenner, Mercè Crosas, Jeffrey Grethe, David Kennedy, Henning Hermjakob, Philippe Rocca-Serra, Robin Berjon, Sebastian Karcher, Maryann Martone, TimothyClark. 

Voir aussi sur le site Inra Gestion et partage des données scientifiques : citer des données

re3data : une première version d’API disponible

Re3data_Logo_RGB_72dpire3data, répertoire d’entrepôts pour les données de la recherche (1130 entrepôts en mars 2015 avec un accroissement moyen de 10 entrepôts par semaine), vient de mettre à disposition une première version d’API, en test, qui permet aux développeurs de récupérer au format XML d’une part la liste des entrepôts et d’autre part la description complète d’un entrepôt identifié.

Protocole d’accord signé entre re3data et OpenAIRE

OpenAIRE et re3data[1] ont signé en octobre 2013 un protocole d’accord qui prévoit l’échange de métadonnées concernant les entrepôts de données de la recherche entre re3data.org et OpenAIREplus[2]. Ce dernier intègrera les entrepôts indexés par re3data.org et fournira en retour des informations concernant les statistiques sur l’utilisation des jeux de données et les liens entre les jeux de données et les publications. Les échanges porteront également sur les bonnes pratiques et les normes et directives à appliquer dans le cadre de l’archivage des données de recherche.

[1] Re3data.org (Registry of Research Data Repositories) est un répertoire d’entrepôts de données de recherche, d’origine allemande, financé par la German Research Foundation DFG. Il se présente comme un registre mondial d’entrepôts de toutes disciplines. re3data sélectionne les entrepôts qu’il référence et utilise pour les décrire des métadonnées provenant d’un  vocabulaire qu’il a élaboré. En septembre 2013, 397 entrepôts étaient décrits parmi 611 référencés.

[2] Lancé le 6/12/2011 pour une durée de 2 ans 1/2, OpenAIREplus prolonge le projet OpenAIRE (Open Access Infrastructure for Research in Europe), projet européen financé par la Commission Européenne (CE) dans le cadre du 7ème programme cadre, dont le but est d’accompagner l’obligation, décidée par la CE et le Conseil Européen de la Recherche (ERC), de déposer en open access les publications et résultats des recherches financées par la CE. OpenAIREplus utilise l’infrastructure technique du projet OpenAIRE et étend son action aux publications européennes (et non plus seulement financées par l’UE). Parmi ses principaux objectifs figurent la connexion entre publications et données de recherches de toutes disciplines, la possibilité pour les utilisateurs de créer des publications enrichies et l’interopérabilité avec les infrastructures existantes majeures comme DataCite, Mendeley, ORCID, EUDAT, REIsearch. OpenAIREplus utilise les entrepôts existants et s’est par ailleurs associé au CERN pour lancer en mai 2013 le portail Zenodo.

 

Zenodo, un entrepôt de données

Zenodo permet, comme d’autres outils  (figshare, Dryad,…), de déposer des ensembles de donnés et de les lier aux publications scientifiques qui ont été écrites  à partir de ces données. Il est cependant à considérer avec attention, en particulier parce qu’il est issu du projet européen  OpenAIREplus , développé par le CERN et lié aux projets pilotes de la Commission européenne en matière de gestion de données.

La recherche peut se faire sur différents types de documents :Datasets, Images, Posters, Presentations, Publications (article,livre,…), Video/Audio.

Zenodo affecte des DOIs  aux objets et expose les métadonnées de description au moissonnage à travers le protocole OAI-PMH, le protocole d’interopérabilité des archives ouvertes (Prodinra, HAL…)

Un point particulièrement intéressant : Zenodo permet de créer des communautés et de les gérer soi-même en filtrant ce qui peut y être déposé ou non et son niveau d’accès, « open access » ou « restricted access » avec le courriel à contacter pour obtenir le document, closed access. Une communauté peut correspondre à un colloque ou à un projet par exemple.

figure 1 : un dataset en libre accès

figure 2 : un article en accès réservé

Zenodo utilise le altmetrics donut qui permet de connaitre l’impact de documents dans les réseaux sociaux.

Un exemple de « Donut » de Altmetric dans un journal scientifique

Zenodo pourrait devenir un outil important pour les scientifiques qui souhaitent partager leurs données mais qui n’ont pas d’entrepôts institutionnels ou thématiques pour le faire. Il pourra être un élément important pour répondre à l ‘obligation de rendre les publications et les données librement accessibles, déclarée dans le programme Horizon 2020 de la Commission européenne

Références :