Archives de catégorie : Open data

ScanR : le moteur de recherche du MENESR pour identifier les structures de recherche françaises


scanrinterfaceScanR, lancé le 6/07/2016 en version bêta est présenté comme “le moteur de la recherche et de l’innovation“ qui permet de rechercher des acteurs de la recherche publiques et privés implantés en France. Il a été développé par le Ministère  de l’Éducation Nationale, de l’Enseignement Supérieur et de la recherche à partir d’un nombre impressionnant de ressources fournies par les organismes de recherches mais aussi par des entités travaillant sur l’Open data (Etalab, OpenData…), des référentiels (GRID, Global Research Identifier Database), RNSR, Répertoire national des structures de recherche, Crossref…), des réservoirs de contenus (Espace.net pour les brevets,  theses.fr pour les thèses) et des archives ouvertes (Prodinra et HAL).

scanR-sources

Ces différentes sources alimentent les pages d’informations sur les structures de recherche. Les utilisateurs peuvent y contribuer directement en signalant des erreurs ou en proposant des enrichissements (crowdsourcing).

ScanR permet en particulier

  • d’identifier des partenaires potentiels sur un projet de recherche
  • de connaître les publications d’un laboratoire ou les brevets d’une entreprise
  • de visualiser  les relations entre les différentes entités
  • ou de visualiser les caractéristiques scientifiques d’un territoire.

L’interface permet une recherche en texte intégral qui peut être filtrée par type d’entité (public / privé), par tutelle (CNRS, INRA…..), par thématiques (listes fermées en français),  par localisation géographique et par projet.

Une recherche sur le mot « forêts » permet d’avoir d’une part la liste des structures pour lesquelles le terme apparaît dans une ou plusieurs sources (source spécifiée : Recherche trouvée dans…) :

structure-foret

Exemple de structure apparaissent en réponse à une requête

et d’autre part une vue synthétique des caractéristiques de ces structure :

scanRforets

Exemple de pages d’informations sur l’unité Écologie des Forêts Méditerranéennes  (URFM) de l’INRA

unité Écologie des Forêts Méditerranéennes - fiche de l'unité

unité Écologie des Forêts Méditerranéennes – fiche de l’unité

 Écologie des Forêts Méditerranéennes - visualisation des collaborations

Écologie des Forêts Méditerranéennes – visualisation des collaborations

Écologie des Forêts Méditerranéennes - Publications

Écologie des Forêts Méditerranéennes – Publications

Des API sont proposés pour exploiter les données de scanR, également disponibles sous licence ouverte sur le portail open data de l’enseignement supérieur et à la recherche.

Vu sur :  ADBU.fr : ScanR: le nouveau moteur de recherche du MENESR qui identifie en quelques clics les orientations et les productions de toutes les structures de recherche françaises. .  Voir aussi la  vidéo de l’annonce

accès à ScanR https://scanr.enseignementsup-recherche.gouv.fr/

 

Pour citer ce billet : Aventurier, Pascal, Cocaud, Sylvie. 2016. « ScanR : le moteur de recherche du MENESR pour identifier les structures de recherche françaises | Observatoire des technologies de l’IST ». Consulté le juillet 7 2016 . http://ist.blogs.inra.fr/technologies/2016/07/07/scanr-le-moteur-de-recherche-du-menesr-pour-identifier-les-structures-de-recherche-francaises/.

Opendatamonitor: un site pour trouver, analyser et comparer des données ouvertes

Opendatamonitor est un « observatoire »  des données ouvertes développé dans le cadre d’un projet européen FP7. Opendatamonitor « moissonne » des catalogues de données et permet de localiser des jeux de données ouvertes tout en informant sur leur degré d’ouverture.  Les jeux de données sont analysés selon 4 critères : licence (ouverte ou non), formats (lisibles par les machines ou non), disponibilité et complétude des métadonnées. Par exemple, sur l’ensemble des catalogues moissonnés à ce jour par Opendatamonitor, 75% des jeux de données sont publiés avec une licence ouverte, 45% le sont dans des formats « machine readable », 65% sont disponibles, et 58% sont décrits avec des métadonnées généralement reconnues comme indispensables (licence, author, organisation, date released and date updated). En France, ces proportions sont respectivement de 46%, 47%, 87% et 72%.
Les catalogues de données de la recherche semblent absents pour l’instant de cette plateforme.

Pour en savoir plus : http://www.opendatamonitor.eu

opendatamonitor

opendatamonitor2

 

Gestion des données de la recherche : Traduction française des deux guides pour Horizon 2020

Research Data Management by jannekestaaks on Flickr. https://www.flickr.com/photos/jannekestaaks/14391226325

Research Data Management de jannekestaaks on Flickr

D’après le billet « Traduction française des deux guides pour Horizon 2020 » publié le 29 octobre , par Thérèse Hameau sur le site www.donneesdelarecherche.fr

Le service traduction de l’Inist-Cnrs a traduit en français les deux guides publiés par la Commission européenne pour aider les porteurs de projet du Programme-cadre Horizon 2020. Une version des deux guides a été publiée le 19 septembre 2014. et une version modifiée de l’un des guides le 29 octobre 2014.

L’un porte sur le libre accès aux publications scientifiques et aux données de la recherche. Il rappelle le contexte du libre accès et donne quelques définitions. Il détaille les obligations que doivent remplir les bénéficiaires de financement dans le cadre d’H2020 pour rendre leurs articles librement accessibles ainsi que leurs données pour les axes entrant dans le Projet pilote de libre accès aux données.
L’autre fournit les lignes directrices concernant la gestion des données et l’élaboration d’un plan de gestion de ces données.

Visibilité de la recherche française

Pour comprendre « d’où venait le manque de visibilité et de lisibilité de la recherche française », et ce malgré le mouvement d’ouverture des données publiques, le site 2Elabo dresse un état des lieux nourri de nombreux exemples des réalisations, des projets, ainsi que des standards préconisés et outils utilisés internationalement pour mettre en place des systèmes d’information sur la recherche.

A travers les trois volets :

  1. Accès aux données sur la recherche (12/11/2013),
  2. Gestion des informations tout au long du cycle de vie de la recherche (21/02/2014),
  3. Annuaires de chercheurs et valorisation de l’expertise des laboratoires (06/09/2014),

2Elabo pointe le retard pris par la France au regard d’autres pays qui, comme la Grande Bretagne avec le portail national Gateway to Research et le projet researchfish, ont su mettre en place des systèmes d’information sur la recherche ouverts, offrant des données riches couvrant tout le cycle de vie de la recherche.
Ils montrent comment l’utilisation de standards, notamment CERIF (Common European Research Information Format), en assurant l’interopérabilité des informations de recherche et l’échange de données entre institutions, conduit à une meilleure compréhension du paysage de la recherche à l’échelle mondiale, et à la possibilité d’obtenir des indicateurs pour le suivi des projets et les politiques de recherche et d’innovation.
Les systèmes d’information sur la recherche en cours ou CRIS (Current Research Information Systems), utilisés dans les organismes de recherche et basés sur CERIF, ont des atouts nombreux qui en font « les briques d’un système d’information moderne, interopérable à l’échelle d’un pays et bientôt entre les pays » gages de gain de temps pour le chercheur et d’efficacité pour l’administration de la recherche.
Les systèmes de réseautage pour la recherche ou RNS (Research Networking System), basés sur les profils des chercheurs, améliorent leur visibilité, la communication sur leurs compétences, leurs axes de recherches et leurs collaborations. Ils sont amenés à remplacer les anciens annuaires d’universités et organismes de recherche car ils répondent à des pré-requis – identifiés lors d’enquêtes, de séances de brainstorming et d’entretiens avec des chercheurs, d’analyse de la littérature et d’observations en contexte – détaillés et illustrés de nombreux exemples dans le 3ème volet de cette étude.

S’appuyer sur ORCID, déployer un logiciel CRIS (Pure, Elements, Converis…), un RNS ( VIVO, Profiles RNS ou UNIWeb…) ou adosser un annuaire à un entrepôt institutionnel s’il existe (développement “maison” comme Okina de l’université d’Angers ou solution clés en mains comme DSpace-CRIS) sont présentées comme les quatre approches que pourra suivre une institution désirant construire un annuaire de ses chercheurs, annuaires qui pourront être fédérés au travers de portails comme VIVOsearch, DIRECT2experts ou CTSAsearch.

Vu sur
deuxième labo

Linked Open Data Cloud : nouvelle version

Linked Open Data cloud La nouvelle version du nuage des données liées (Linked Open Data Cloud : 570 jeux de données, 2900 liens), publiée en août par M. Schmachtenberg, C. Bizer et H. Paulheim de l’université de Mannheim (Allemagne), est présentée et commentée par Thomas Francart sur son blog Sparna blog.
La version précédente datait de 2011.
L’importance relative et le rôle des données liées vs contenus structurés (Microdata/RDFa/Microformats) sont soulignés.

Les services de conservation et d’exposition de données : un guide pour les chercheurs SHS

Huma-Num est une très grande infrastructure (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Une nouvelle version (juin 2014) de son guide de 24 pages «Les services de conservation de données » est disponible. Ce guide  propose aux équipes de recherche des solutions pour assurer la sauvegarde, la pérennité et le partage de leurs données numériques (PDF à télécharger).

grille

Introduction de Nicolas Larousse (CNRS)

Aujourd’hui, les données de la recherche sont produites nativement sous forme numérique ou proviennent de la numérisation de données analogiques. Le passage au numérique apporte un gain évident pour la transmission, la diffusion de ces informations et le travail collaboratif qui peut être effectué sur ces données. Mais paradoxalement, un objet numérique peut être plus fragile que son homologue du monde réel : en effet, une photo très abimée peut encore fournir de nombreuses informations, alors qu’un fichier informatique est totalement inutilisable à la moindre altération.

Pour éviter ces pertes, Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales, un ensemble de services pour le traitement,
le stockage, la diffusion et la conservation de données numériques, regroupés sur « la Grille de services ». Les services de conservation se déclinent en stockage sécurisé, exposition de données et archivage à long terme.
Le premier volet de ce dossier présente le stockage sécurisé associé aux outils de traitement proposés par la « Grille de services ».

Le second volet présente Nakala, le nouveau service proposé pour exposer les données.

Enfin, le troisième volet est consacré au service d’archivage à long terme mis en place par la TGIR, qui s’appuie sur l’infrastructure et les compétences du Centre Informatique
National de l’Enseignement Supérieur
. Les problématiques soulevées par l’archivage à long terme sont ensuite mises en perspective par la vision des Archives de France sur le devenir des données de la recherche en format numérique.

Lu dans Echodocs. Les services de conservation de données. 17/06/2014.  http://www.echosdoc.net/2014/06/les-services-de-conservation-de-donnees/

lire aussi :
NAKALA: un nouveau service pour l’exposition de données.humanum.hypotheses.org/369

WorldCat : ressources disponibles en linked data

Après avoir publié sous forme de données liées :
– la classification décimale Dewey (DDC),
– le fichier d’autorités international virtuel (VIAF) et
– le schéma des vedettes-matières de la Library of Congress Faceted (FAST),
OCLC met à disposition 197 millions de descriptions d’œuvres (WorldCat Works) selon le modèle schema.org étendu à d’autres vocabulaires et sous licence ODC-BY.

Une interface Web permet d’explorer les données liées en navigant à travers leur relations. Pour l’instant, l’accès à cette interface se fait via l’URI d’une entité (par exemple http://worldcat.org/entity/work/id/9027619), l’identifiant étant récupérable via les webservices xID API (il est également présent dans la notice affichée après une recherche sur WorldCat : voir la propriété schema:exampleOfWork dans l’onglet « Données liées »).

En savoir plus : OCLC releases WorldCat Works as linked data
Vu sur LaLIST

Open data : apprendre à utiliser les données

L’École des Données est une version francophone du projet School of Data de l’Open Knowledge Foundation lancé en mai 2012, dont l’objectif est de donner plus de pouvoir à la société civile en enseignant les compétences nécessaires pour réutiliser des données disponibles librement.
L’école des données s’adresse à tous, aucun niveau de compétence n’est requis, et propose des cours complets, des recettes et astuces et des cas concrets à partir de données existantes.
Deux grandes parties sont disponibles pour le moment (« Les fondamentaux des données » et « Brève introduction sur le nettoyage des données« ) chacune comprenant plusieurs chapitres dans lesquels sont intégrés une partie de cours, des exercices (tâches rapides : 15 à 30 mn, ou plus longues : 1h) ainsi qu’une liste de lecture.
La participation de tous est encouragée pour collaborer à la traduction des contenus, à l’adaptation des cours au contexte français, au développement de nouveaux cours ou à l’animation du site.

Un outil vraiment agréable au premier abord !

Vu sur http://lalist.inist.fr/