Archives par étiquette : données de la recherche

Une feuille de route pour les citations des données dans les entrepôts

Les entrepôts de données jouent un rôle central dans la citation des données car ils fournissent des services de gestion et de découverte des données, un accès pérennes aux données, des identifiants uniques et les métadonnées nécessaires. Pour la citation des données, les entrepôts doivent travailler avec différents acteurs comme les éditeurs, les bases de données bibliographiques, les chercheurs.

Un article publié en preprint dans BioRxiv présente une feuille de route pour que l’implémentation de la citation de données par les entrepôts de données, en particulier dans le domaine des sciences de la vie, soit en accord avec la “Joint Declaration of Data Citation Principles“. Ce travail fait partie du projet DCIP Data Citation Implementation Pilot de Force11.

Cet article synthétise et harmonise les principales recommandations existantes et présente 11 recommandations regroupées selon trois niveaux de priorité de mise en place :

  1. Étapes requises pour suivre “the Joint Declaration of Data Citation Principles”,
  2. Étapes recommandées pour faciliter le workflow de publication article/données
  3. Étapes optionnelles pour renforcer la citation de données dans les entrepôts

Ce document insiste sur l’importance pour l’entrepôt de fournir des métadonnées, que ce soit pour la citation ou pour la découverte des jeux de données, dans les formats les plus utilisés : Dublin Core, Schema.org, DataCite et DATS. Il insiste également sur l’importance de la “landing page” à laquelle doit mener l’identifiant persistant attribué au jeu de données, et qui doit fournir les informations sur les données (métadonnées, accès, licence d’utilisation) dans des formats lisibles par les humains et par les machines en utilisant les balises de Schema.org au format JSON-LD (point 7), mais aussi dans des formats de meta-balises en HTML comme PRISM ou encore Dublin Core HTML (point 8) .

La négociation de contenu  entre les différents services (les entrepôts et les services d’enregistrement d’identifiants comme DataCite ou identifier.org) est également mentionnée : les identifiants pérennes (Persistent Identifier ou PID) doivent pointer vers la landing page et des formats sont également préconisés

Les pratiques de la citation de données peuvent être implémentées dans de nouveaux services comme BioCADDIE, un service de recherche de données en biomédecine.

source :

A Data Citation Roadmap for Scholarly Data Repositories [Preprint]. Martin Fenner, Mercè Crosas, Jeffrey Grethe, David Kennedy, Henning Hermjakob, Philippe Rocca-Serra, Robin Berjon, Sebastian Karcher, Maryann Martone, TimothyClark. 

Voir aussi sur le site Inra Gestion et partage des données scientifiques : citer des données

Un site web INRA sur la gestion et le partage des données de la recherche

datapartagebandeau

L’inra s’engage sur le partage des données, en diffusant une Charte pour le libre accès aux publications et aux données  et avec un site web, Datapartage, pour accompagner la gestion des données et présenter l ’offre de services «gestion et partage des données ». Le site propose 4 rubriques : Gérer, Partager, Réutiliser et Technologies.

Les services proposés sont :  attribuer un DOI à un jeu de données INRA, choisir un entrepôt pour déposer ses données, écrire un plan de gestion de donnés à l’aide d’un site dédié et des formations et publier un vocabulaire ou une ontologie. Une offre de formation se met progressivement en place à travers les infodoc express et les classes virtuelles (voir la formation sur les datapapers).

https://www6.inra.fr/datapartage/

Documents complémentaires

Nouveau DOI pour les données ARGO : avec Seanoe, une nouvelle façon de citer des données dynamiques

 Texte de Frederic Merceur (email Frederic.Merceur@ifremer.fr)  (Ifremer) diffusé sur la liste Renater Acces ouvert le 20 avril 2016 et reproduit avec son aimable autorisation.

Les DOI attribués aux données publiés dans Seanoe (http://www.seanoe.org) permettent de fiabiliser les citations, de simplifier l’accès aux données et de permettre la traçabilité de leur utilisation.

Les données publiées par SEANOE sont accessibles gratuitement. Elles peuvent être réutilisées et contribuer ainsi à une progression plus rapide de la science. Si elles sont citées dans une publication scientifique, un lecteur peut également les rejouer pour vérifier un résultat. La publication et la citation des données dans une publication peuvent donc augmenter la crédibilité de l’étude.

Si les données évoluent dans le temps, plusieurs solutions permettent d’assurer la reproductibilité d’une expérience. Pour les données Argo, une image (snapshot) de l’ensemble des données est figée et conservée tous les mois.

Dans une première version, un DOI principal avait été attribué au jeu de données Argo et des DOI spécifiques avaient été attribués à chaque snapshot mensuel.

Pour se rapprocher des nouvelles recommandations[1] de la Research Data Alliance (RDA), un nouveau DOI unique vient d’être attribué par Seanoe aux données ARGO. Ce DOI unique permet de citer le jeu de données global ou un snaphot spécifique à l’aide du même DOI. Dans cette perspective, chaque snapshot est uploadé dans Seanoe qui lui attribue une URL et une clé. La clé 42350 a par exemple été attribuée au snapshot du 2016-02-08.

La citation du jeu de données global s’effectue en citant le nouveau DOI sans paramètre :

Argo (2000). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC). Seanoe.http://doi.org/10.17882/42182

La citation d’un snapshot spécifique se fait en ajoutant sa clé précédée du caractère # au DOI :

Argo (2016). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC) – Snapshot of Argo GDAC of February, 8th 2016. Seanoe. http://doi.org/10.17882/42182#42350

senaoe

Ce nouveau DOI Argo unique permettra notamment un repérage plus simple des publications qui le citent. Le calcul de statistiques d’utilisation sera également facilité.

Cette solution pour publier les données ARGO dans Seanoe peut-être mise en œuvre pour n’importe quel type de données marines évolutives.

[1] Data Citation of Evolving Data – Research Data Alliancehttps://rd-alliance.org/system/files/documents/RDA-DC-Recommendations_151020.pdf

MOOCSciNum : Numérique et recherche en santé et sciences du vivant : nouvelles pratiques et enjeux

moocprtaiquenumeroqe

Overture des inscriptions pour le MOOCSciNum ” Numérique et recherche en santé et sciences du vivant : nouvelles pratiques et enjeux” qui commencera le 19 octobre.

 

Ce MOOC a pour objectif de donner aux chercheurs, professionnels de la recherche en santé et sciences du vivant et futurs chercheurs français et francophones les éléments nécessaires pour s’adapter à l’évolution des pratiques de recherche en santé (de la gestion à la communication et à la diffusion de ressources scientifiques) et leur permettre de prendre en main les outils numériques associés. Il permettra en outre de saisir certains nouveaux enjeux technologiques, sociaux, juridiques, éthiques tels que le libre accès à la publication scientifique, le partage de données scientifiques ainsi que les changements de méthodologies que le numérique peut introduire dans les pratiques de recherche (data driven research, recherche participative)…. source France Université Numérique.

Inscription sur France Université Numérique https://www.france-universite-numerique-mooc.fr/courses/VirchowVillerme/06005/session01/about. Voir la présentation sur Dailymotion.

Plan du cours (source France Université Numérique)

Séance 0 : Recherche à l’ère du numérique : quelles transformations ? (séance d’introduction)
Numérique et Recherche
Présentation du MOOC

 Séance 1 : S’appuyer sur des ressources scientifiques existantes
Bibliothèque et numérique : quels défis et quels rôles à jouer ?
Savoir gérer sa bibliographie seul ou en groupe avec Zotero

Séance 2 : Collecter/produire des données scientifiques
Numérique et collecte de données en santé
Daydream : un exemple de collecte de données en ligne

Séance 3 : Traiter/analyser des données scientifiques
Données et numérique : quelles “réelles” transformations ?
Recherche en neurogénétique : exemple d’utilisation de Python et de Github
Analyse de données en épidémiologie avec R

 Séance 4 : Archiver/partager des données scientifiques : données de santé, données sensibles
 Des données partagées aux données ouvertes en recherche
Données de santé, données sensibles : quels droits ? Quelles protections ?
Partage de données médicales anonymisées

Séance 5 : Partager ses résultats scientifiques : écrire et publier
Publier sa recherche à l’ère du numérique : Open Access
Droit d’auteur et licences Creative Commons : quelques précisions utiles avant de publier
Déposer un article dans HAL

Bonnes pratiques pour publier des données sur le web [W3C Working Draft]

source : Data on the Web Best Practices
First Public Working Draft
http://www.w3.org/TR/2015/WD-dwbp-20150224/#bp-summary

Ce document, ayant le statut Working draft du W3C, décrit les bonnes pratiques pour encourager la diffusion des données via internet, qu’elles soient issues de l’action des données ouvertes produites par les gouvernements (disponibles sur le Global Open Data Index de l’Open Knowledge Foundation) [1] de la publication des données de recherche encouragée par des institutions comme la Research Data Alliance [2] , de l’analyse ou du moissonnage des médias sociaux, ou encore de la production des données provenant du patrimoine culturel de la BNF [3]. Le Linked Open Data Cloud [4] donne une idée de l’importance de ce phénomène.

Il y a cependant une nécessité fondamentale de compréhension entre les producteurs de données et les utilisateurs.

Le document présente 27 bonnes pratiques qui couvrent différents aspects comme les formats de données, l’accès aux données, l’identification des données et les métadonnées. Un ensemble d’études de cas [5] a été analysé pour rédiger ces bonnes pratiques.

Ce document se veut également plus général que la note Best Practices for Publishing Linked Data [6] et traite d’autres formats comme CSV et JSON ainsi que l’utilisation de vocabulaires.

Notes

Parution du rapport de la RDA “The Data Harvest: How sharing research data can yield knowledge, jobs and growth”

DataHarvest_Report

Source : The Data Harvest: How sharing research data can yield knowledge, jobs and growth. 2014. 40 p. http://europe.rd-alliance.org/documents/publications-reports/data-harvest-how-sharing-research-data-can-yield-knowledge-jobs-and disponible sur le site http://europe.rd-alliance.org.

Le Groupe Europe de la RDA (Research Data Alliance) a publié en décembre 2014 le rapport :  The Data Harvest: How sharing research data can yield knowledge, jobs and growth (traduction libre : Moisson de données : comment les données partagées de la recherche peuvent augmenter la connaissance, l’emploi et  la croissance).

Ce rapport fait suite au rapport publié en 2010 par le High Level Group on Scientific Data intitulé “Riding The Wave” sur une série de recommandations sur la manière dont l’Europe pouvait tirer profit de la vague de croissance des données scientifiques. Ce nouveau rapport présente maintenant comment l’Europe doit agir pour sécuriser sa position dans le futur marché des données.  Contact : info@europe.rd-alliance.org.

Le rapport présente 7  recommandations  générales qui portent sur la nécessité d’avoir des plans de gestion de données, de promouvoir l’accès aux données pour un large public du chercheur au citoyen,  de développer des moyens en faveur du partage de données (en n’oubliant pas Horizon2020), de développer des politiques et des outils pour construire des données fiables, et d’encourager les collaborations internationales. Les deux dernières recommandations sont axées sur la nouveauté du domaine des partage des données scientifiques : il ne faut pas le réguler sur des points que nous ne comprenons pas ou arrêter ce qui a bien commencé.

Le rapport présente aussi les différentes initiatives thématiques et les projets qui construisent les données de la recherche comme  OpenAire  (http://openaire.eu) qui doit devenir le portail unique de diffusion des productions financées par l’UE  et  Eudat  (European Data Infrastructure www.eudat.eu) qui permettent d’assembler les différentes initiatives comme celles des hollandais (www.u2connect.eu).

De la page 13 à 16 sont présentées des initiatives européennes qui offrent un bon panorama des projets en cours :

Les services de conservation et d’exposition de données : un guide pour les chercheurs SHS

Huma-Num est une très grande infrastructure (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Une nouvelle version (juin 2014) de son guide de 24 pages «Les services de conservation de données » est disponible. Ce guide  propose aux équipes de recherche des solutions pour assurer la sauvegarde, la pérennité et le partage de leurs données numériques (PDF à télécharger).

grille

Introduction de Nicolas Larousse (CNRS)

Aujourd’hui, les données de la recherche sont produites nativement sous forme numérique ou proviennent de la numérisation de données analogiques. Le passage au numérique apporte un gain évident pour la transmission, la diffusion de ces informations et le travail collaboratif qui peut être effectué sur ces données. Mais paradoxalement, un objet numérique peut être plus fragile que son homologue du monde réel : en effet, une photo très abimée peut encore fournir de nombreuses informations, alors qu’un fichier informatique est totalement inutilisable à la moindre altération.

Pour éviter ces pertes, Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales, un ensemble de services pour le traitement,
le stockage, la diffusion et la conservation de données numériques, regroupés sur « la Grille de services ». Les services de conservation se déclinent en stockage sécurisé, exposition de données et archivage à long terme.
Le premier volet de ce dossier présente le stockage sécurisé associé aux outils de traitement proposés par la « Grille de services ».

Le second volet présente Nakala, le nouveau service proposé pour exposer les données.

Enfin, le troisième volet est consacré au service d’archivage à long terme mis en place par la TGIR, qui s’appuie sur l’infrastructure et les compétences du Centre Informatique
National de l’Enseignement Supérieur
. Les problématiques soulevées par l’archivage à long terme sont ensuite mises en perspective par la vision des Archives de France sur le devenir des données de la recherche en format numérique.

Lu dans Echodocs. Les services de conservation de données. 17/06/2014.  http://www.echosdoc.net/2014/06/les-services-de-conservation-de-donnees/

lire aussi :
NAKALA: un nouveau service pour l’exposition de données.humanum.hypotheses.org/369

Open Data : le ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche ouvre ses données

Dans le cadre de la transparence et de l’ouverture des données publiques, le ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche (MENESR) a lancé la première plate-forme ministérielle de mise à disposition de données sur l’enseignement supérieur et la recherche. L’annonce a été faite le 24 avril par Geneviève Fioraso, secrétaire d’Etat à l’Enseignement supérieur et à la Recherche, lors de la Conférence de Paris sur l’Open Data et le Gouvernement ouvert [2]

http://data.enseignementsup-recherche.gouv.fr

Pour mener à bien ce projet, le MENESR s’est associé à OpenDataSoft, entreprise spécialisée dans le traitement et la publication de données en ligne.

Ce sont plus de 2,5 millions de lignes de données et 23 jeux de données qui ont déjà été publiés sur data.enseignementsup-recherche.gouv.fr, voir le document réalisé par le MENESR [1]. Toutes les données sont disponibles sous différents formats ouverts (CSV, JSON, APIs…) adaptés au partage et à différentes utilisations. Les jeux de données sont également synchronisés avec la plate-forme interministérielle data.gouv.fr animée par la mission Etalab [2].

L’interface est assez classique avec des facettes (contributeur, producteur, thématiques, années, mots clés,…) et un moteur de recherche. voir ci dessous. Le site propose également une prise en main illustrée par des exemples d’utilisation des séries de données [1].

et un détail de quelques sources :

Source :
[2] Communiqué de presse OpenDataSoft. 24 avril 2014 Open Data : le ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche ouvre ses données avec OpenDataSoft. http://www.opendatasoft.com/fr/2014/04/24/open-data-le-ministere-de-leducation-nationale-de-lenseignement-superieur-et-de-la-recherche-ouvre-ses-donnees-avec-opendatasoft/

Zenodo, un entrepôt de données

Zenodo permet, comme d’autres outils  (figshare, Dryad,…), de déposer des ensembles de donnés et de les lier aux publications scientifiques qui ont été écrites  à partir de ces données. Il est cependant à considérer avec attention, en particulier parce qu’il est issu du projet européen  OpenAIREplus , développé par le CERN et lié aux projets pilotes de la Commission européenne en matière de gestion de données.

La recherche peut se faire sur différents types de documents :Datasets, Images, Posters, Presentations, Publications (article,livre,…), Video/Audio.

Zenodo affecte des DOIs  aux objets et expose les métadonnées de description au moissonnage à travers le protocole OAI-PMH, le protocole d’interopérabilité des archives ouvertes (Prodinra, HAL…)

Un point particulièrement intéressant : Zenodo permet de créer des communautés et de les gérer soi-même en filtrant ce qui peut y être déposé ou non et son niveau d’accès, “open access” ou “restricted access” avec le courriel à contacter pour obtenir le document, closed access. Une communauté peut correspondre à un colloque ou à un projet par exemple.

figure 1 : un dataset en libre accès

figure 2 : un article en accès réservé

Zenodo utilise le altmetrics donut qui permet de connaitre l’impact de documents dans les réseaux sociaux.

Un exemple de “Donut” de Altmetric dans un journal scientifique

Zenodo pourrait devenir un outil important pour les scientifiques qui souhaitent partager leurs données mais qui n’ont pas d’entrepôts institutionnels ou thématiques pour le faire. Il pourra être un élément important pour répondre à l ‘obligation de rendre les publications et les données librement accessibles, déclarée dans le programme Horizon 2020 de la Commission européenne

Références :