Archives de catégorie : Entrepôt de données

Opendatamonitor: un site pour trouver, analyser et comparer des données ouvertes

Opendatamonitor est un “observatoire”  des données ouvertes développé dans le cadre d’un projet européen FP7. Opendatamonitor “moissonne” des catalogues de données et permet de localiser des jeux de données ouvertes tout en informant sur leur degré d’ouverture.  Les jeux de données sont analysés selon 4 critères : licence (ouverte ou non), formats (lisibles par les machines ou non), disponibilité et complétude des métadonnées. Par exemple, sur l’ensemble des catalogues moissonnés à ce jour par Opendatamonitor, 75% des jeux de données sont publiés avec une licence ouverte, 45% le sont dans des formats “machine readable”, 65% sont disponibles, et 58% sont décrits avec des métadonnées généralement reconnues comme indispensables (licence, author, organisation, date released and date updated). En France, ces proportions sont respectivement de 46%, 47%, 87% et 72%.
Les catalogues de données de la recherche semblent absents pour l’instant de cette plateforme.

Pour en savoir plus : http://www.opendatamonitor.eu

opendatamonitor

opendatamonitor2

 

GitHub pour les scientifiques : une bonne ou mauvaise manière ouverte d’héberger et de partager les connaissances ?

Sources :

  1. il existe  un service interne pour obtenir un DOI en particulier pour des données,
  2.  concernant Github en tant que forge logiciels, une réflexion est lancée sur la mise en service d’une forge INRA nationale qui garantira la propriété intellectuelle et la pérennité des logiciels,
  3. pour ce qui concerne l’hébergement des données, le chantier interne partage de la donnée a vocation à proposer des solutions de stockage et d’échange des données.

actualisation du 2 juin 2017 :

Préconisation INRA pour l’utilisation d’une forge logicielle

Le document d’orientation #INRA2025 nous implique dans une science ouverte, reproductible et interdisciplinaire, qui s’appuiera sur les avancées technologiques du numérique. Cette préconisation est décrite de façon voulue simple dans la note suivante : INRA-UtiliserForge

re3data : une première version d’API disponible

Re3data_Logo_RGB_72dpire3data, répertoire d’entrepôts pour les données de la recherche (1130 entrepôts en mars 2015 avec un accroissement moyen de 10 entrepôts par semaine), vient de mettre à disposition une première version d’API, en test, qui permet aux développeurs de récupérer au format XML d’une part la liste des entrepôts et d’autre part la description complète d’un entrepôt identifié.

Parution du rapport de la RDA “The Data Harvest: How sharing research data can yield knowledge, jobs and growth”

DataHarvest_Report

Source : The Data Harvest: How sharing research data can yield knowledge, jobs and growth. 2014. 40 p. http://europe.rd-alliance.org/documents/publications-reports/data-harvest-how-sharing-research-data-can-yield-knowledge-jobs-and disponible sur le site http://europe.rd-alliance.org.

Le Groupe Europe de la RDA (Research Data Alliance) a publié en décembre 2014 le rapport :  The Data Harvest: How sharing research data can yield knowledge, jobs and growth (traduction libre : Moisson de données : comment les données partagées de la recherche peuvent augmenter la connaissance, l’emploi et  la croissance).

Ce rapport fait suite au rapport publié en 2010 par le High Level Group on Scientific Data intitulé “Riding The Wave” sur une série de recommandations sur la manière dont l’Europe pouvait tirer profit de la vague de croissance des données scientifiques. Ce nouveau rapport présente maintenant comment l’Europe doit agir pour sécuriser sa position dans le futur marché des données.  Contact : info@europe.rd-alliance.org.

Le rapport présente 7  recommandations  générales qui portent sur la nécessité d’avoir des plans de gestion de données, de promouvoir l’accès aux données pour un large public du chercheur au citoyen,  de développer des moyens en faveur du partage de données (en n’oubliant pas Horizon2020), de développer des politiques et des outils pour construire des données fiables, et d’encourager les collaborations internationales. Les deux dernières recommandations sont axées sur la nouveauté du domaine des partage des données scientifiques : il ne faut pas le réguler sur des points que nous ne comprenons pas ou arrêter ce qui a bien commencé.

Le rapport présente aussi les différentes initiatives thématiques et les projets qui construisent les données de la recherche comme  OpenAire  (http://openaire.eu) qui doit devenir le portail unique de diffusion des productions financées par l’UE  et  Eudat  (European Data Infrastructure www.eudat.eu) qui permettent d’assembler les différentes initiatives comme celles des hollandais (www.u2connect.eu).

De la page 13 à 16 sont présentées des initiatives européennes qui offrent un bon panorama des projets en cours :

Visibilité de la recherche française

Pour comprendre « d’où venait le manque de visibilité et de lisibilité de la recherche française », et ce malgré le mouvement d’ouverture des données publiques, le site 2Elabo dresse un état des lieux nourri de nombreux exemples des réalisations, des projets, ainsi que des standards préconisés et outils utilisés internationalement pour mettre en place des systèmes d’information sur la recherche.

A travers les trois volets :

  1. Accès aux données sur la recherche (12/11/2013),
  2. Gestion des informations tout au long du cycle de vie de la recherche (21/02/2014),
  3. Annuaires de chercheurs et valorisation de l’expertise des laboratoires (06/09/2014),

2Elabo pointe le retard pris par la France au regard d’autres pays qui, comme la Grande Bretagne avec le portail national Gateway to Research et le projet researchfish, ont su mettre en place des systèmes d’information sur la recherche ouverts, offrant des données riches couvrant tout le cycle de vie de la recherche.
Ils montrent comment l’utilisation de standards, notamment CERIF (Common European Research Information Format), en assurant l’interopérabilité des informations de recherche et l’échange de données entre institutions, conduit à une meilleure compréhension du paysage de la recherche à l’échelle mondiale, et à la possibilité d’obtenir des indicateurs pour le suivi des projets et les politiques de recherche et d’innovation.
Les systèmes d’information sur la recherche en cours ou CRIS (Current Research Information Systems), utilisés dans les organismes de recherche et basés sur CERIF, ont des atouts nombreux qui en font “les briques d’un système d’information moderne, interopérable à l’échelle d’un pays et bientôt entre les pays” gages de gain de temps pour le chercheur et d’efficacité pour l’administration de la recherche.
Les systèmes de réseautage pour la recherche ou RNS (Research Networking System), basés sur les profils des chercheurs, améliorent leur visibilité, la communication sur leurs compétences, leurs axes de recherches et leurs collaborations. Ils sont amenés à remplacer les anciens annuaires d’universités et organismes de recherche car ils répondent à des pré-requis – identifiés lors d’enquêtes, de séances de brainstorming et d’entretiens avec des chercheurs, d’analyse de la littérature et d’observations en contexte – détaillés et illustrés de nombreux exemples dans le 3ème volet de cette étude.

S’appuyer sur ORCID, déployer un logiciel CRIS (Pure, Elements, Converis…), un RNS ( VIVO, Profiles RNS ou UNIWeb…) ou adosser un annuaire à un entrepôt institutionnel s’il existe (développement “maison” comme Okina de l’université d’Angers ou solution clés en mains comme DSpace-CRIS) sont présentées comme les quatre approches que pourra suivre une institution désirant construire un annuaire de ses chercheurs, annuaires qui pourront être fédérés au travers de portails comme VIVOsearch, DIRECT2experts ou CTSAsearch.

Vu sur
deuxième labo

Open Knowledge Repository : l’Archive ouverte de la Banque mondiale

okrLa Banque mondiale a ouvert en 2012 une archive ouverte recensant la majeure partie de ses travaux de recherche (articles, ouvrages, rapports de recherche, études…).

La plupart des documents sont sous licence Creative Commons Attribution license (CC BY 3.0 IGO) qui permet de réutiliser, de modifier et d’exploiter les données.

OKR propose les données liées aux recherches quand elles sont disponibles.

Lien vers Open Knowledge Repository…

Lire le billet sur Bases Publications…

Les services de conservation et d’exposition de données : un guide pour les chercheurs SHS

Huma-Num est une très grande infrastructure (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Une nouvelle version (juin 2014) de son guide de 24 pages «Les services de conservation de données » est disponible. Ce guide  propose aux équipes de recherche des solutions pour assurer la sauvegarde, la pérennité et le partage de leurs données numériques (PDF à télécharger).

grille

Introduction de Nicolas Larousse (CNRS)

Aujourd’hui, les données de la recherche sont produites nativement sous forme numérique ou proviennent de la numérisation de données analogiques. Le passage au numérique apporte un gain évident pour la transmission, la diffusion de ces informations et le travail collaboratif qui peut être effectué sur ces données. Mais paradoxalement, un objet numérique peut être plus fragile que son homologue du monde réel : en effet, une photo très abimée peut encore fournir de nombreuses informations, alors qu’un fichier informatique est totalement inutilisable à la moindre altération.

Pour éviter ces pertes, Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales, un ensemble de services pour le traitement,
le stockage, la diffusion et la conservation de données numériques, regroupés sur « la Grille de services ». Les services de conservation se déclinent en stockage sécurisé, exposition de données et archivage à long terme.
Le premier volet de ce dossier présente le stockage sécurisé associé aux outils de traitement proposés par la « Grille de services ».

Le second volet présente Nakala, le nouveau service proposé pour exposer les données.

Enfin, le troisième volet est consacré au service d’archivage à long terme mis en place par la TGIR, qui s’appuie sur l’infrastructure et les compétences du Centre Informatique
National de l’Enseignement Supérieur
. Les problématiques soulevées par l’archivage à long terme sont ensuite mises en perspective par la vision des Archives de France sur le devenir des données de la recherche en format numérique.

Lu dans Echodocs. Les services de conservation de données. 17/06/2014.  http://www.echosdoc.net/2014/06/les-services-de-conservation-de-donnees/

lire aussi :
NAKALA: un nouveau service pour l’exposition de données.humanum.hypotheses.org/369

Open Data : le ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche ouvre ses données

Dans le cadre de la transparence et de l’ouverture des données publiques, le ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche (MENESR) a lancé la première plate-forme ministérielle de mise à disposition de données sur l’enseignement supérieur et la recherche. L’annonce a été faite le 24 avril par Geneviève Fioraso, secrétaire d’Etat à l’Enseignement supérieur et à la Recherche, lors de la Conférence de Paris sur l’Open Data et le Gouvernement ouvert [2]

http://data.enseignementsup-recherche.gouv.fr

Pour mener à bien ce projet, le MENESR s’est associé à OpenDataSoft, entreprise spécialisée dans le traitement et la publication de données en ligne.

Ce sont plus de 2,5 millions de lignes de données et 23 jeux de données qui ont déjà été publiés sur data.enseignementsup-recherche.gouv.fr, voir le document réalisé par le MENESR [1]. Toutes les données sont disponibles sous différents formats ouverts (CSV, JSON, APIs…) adaptés au partage et à différentes utilisations. Les jeux de données sont également synchronisés avec la plate-forme interministérielle data.gouv.fr animée par la mission Etalab [2].

L’interface est assez classique avec des facettes (contributeur, producteur, thématiques, années, mots clés,…) et un moteur de recherche. voir ci dessous. Le site propose également une prise en main illustrée par des exemples d’utilisation des séries de données [1].

et un détail de quelques sources :

Source :
[2] Communiqué de presse OpenDataSoft. 24 avril 2014 Open Data : le ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche ouvre ses données avec OpenDataSoft. http://www.opendatasoft.com/fr/2014/04/24/open-data-le-ministere-de-leducation-nationale-de-lenseignement-superieur-et-de-la-recherche-ouvre-ses-donnees-avec-opendatasoft/

Academic torrents

Deux étudiants de l’Université de Massachusetts ont ouvert la plateforme Academic Torrents qui permet aux scientifiques de partager des publications et des données de la recherche [1].  A la différence des autres entrepôts de données comme Zenodo, Dryad ou encore Figshare, AcademicTorrents utilise le protocole bittorrent pour proposer des ressources distribuées (Peer to Peer ou P2P). Le site indexe plus de 1.5 pétabits de données selon [1] et plus de 6.91Tb de données disponibles selon Academic Torrents. Il contient des “données phares” comme la carte de Mars de la NASA, ou une copie de Wikipedia.

Academic Torrents permet de rechercher à travers les documents, les jeux de données ou les collections, voir ci-dessous l’affichage par collections :

Ce site est intéressant car il offre une réponse aux problèmes de persistance et de disponibilité des données de la recherche gérées par les institutions [2]. Les données en P2P étant réparties sur les sites qui les ont téléchargées, elles peuvent être déchargées même si le site principal n’est pas connecté. L’inconvénient majeur est justement que l’utilisation du P2P  est souvent restreint  dans les institutions de recherche et qu’un client bittorrent est nécessaire pour utiliser le site.

http://academictorrents.com/

[1] “Academics Launch Torrent Site to Share Papers and Datasets | TorrentFreak.” Accessed February 26, 2014. http://torrentfreak.com/academics-launch-torrent-site-to-share-papers-and-datasets-140131/.

[2] “Academic Torrents: Bringing P2P Technology to the Academic World.” MyScienceWork. Accessed February 26, 2014. https://www.mysciencework.com/news/11123/academic-torrents-bringing-p2p-technology-to-the-academic-world.

 

Protocole d’accord signé entre re3data et OpenAIRE

OpenAIRE et re3data[1] ont signé en octobre 2013 un protocole d’accord qui prévoit l’échange de métadonnées concernant les entrepôts de données de la recherche entre re3data.org et OpenAIREplus[2]. Ce dernier intègrera les entrepôts indexés par re3data.org et fournira en retour des informations concernant les statistiques sur l’utilisation des jeux de données et les liens entre les jeux de données et les publications. Les échanges porteront également sur les bonnes pratiques et les normes et directives à appliquer dans le cadre de l’archivage des données de recherche.

[1] Re3data.org (Registry of Research Data Repositories) est un répertoire d’entrepôts de données de recherche, d’origine allemande, financé par la German Research Foundation DFG. Il se présente comme un registre mondial d’entrepôts de toutes disciplines. re3data sélectionne les entrepôts qu’il référence et utilise pour les décrire des métadonnées provenant d’un  vocabulaire qu’il a élaboré. En septembre 2013, 397 entrepôts étaient décrits parmi 611 référencés.

[2] Lancé le 6/12/2011 pour une durée de 2 ans 1/2, OpenAIREplus prolonge le projet OpenAIRE (Open Access Infrastructure for Research in Europe), projet européen financé par la Commission Européenne (CE) dans le cadre du 7ème programme cadre, dont le but est d’accompagner l’obligation, décidée par la CE et le Conseil Européen de la Recherche (ERC), de déposer en open access les publications et résultats des recherches financées par la CE. OpenAIREplus utilise l’infrastructure technique du projet OpenAIRE et étend son action aux publications européennes (et non plus seulement financées par l’UE). Parmi ses principaux objectifs figurent la connexion entre publications et données de recherches de toutes disciplines, la possibilité pour les utilisateurs de créer des publications enrichies et l’interopérabilité avec les infrastructures existantes majeures comme DataCite, Mendeley, ORCID, EUDAT, REIsearch. OpenAIREplus utilise les entrepôts existants et s’est par ailleurs associé au CERN pour lancer en mai 2013 le portail Zenodo.