Un site web INRA sur la gestion et le partage des données de la recherche

datapartagebandeau

L’inra s’engage sur le partage des données, en diffusant une Charte pour le libre accès aux publications et aux données  et avec un site web, Datapartage, pour accompagner la gestion des données et présenter l ’offre de services «gestion et partage des données ». Le site propose 4 rubriques : Gérer, Partager, Réutiliser et Technologies.

Les services proposés sont :  attribuer un DOI à un jeu de données INRA, choisir un entrepôt pour déposer ses données, écrire un plan de gestion de donnés à l’aide d’un site dédié et des formations et publier un vocabulaire ou une ontologie. Une offre de formation se met progressivement en place à travers les infodoc express et les classes virtuelles (voir la formation sur les datapapers).

https://www6.inra.fr/datapartage/

Documents complémentaires

Une thèse au sujet du crowdsourcing et des bibliothèques numériques

By James Montgomery Flagg (http://www.usscreen.com/american_spirit/) [Public domain], via Wikimedia Commons

By James Montgomery Flagg (http://www.usscreen.com/american_spirit/) [Public domain], via Wikimedia Commons

Les bibliothèques ont déjà eu recours à l’externalisation de certaines tâches de saisies de notices bibliographiques, de catalogage, d’indexation ou encore de correction de l’OCR auprès de prestataires dans des pays où la main d’œuvre est dite à bas coût. Cette externalisation est demeurée dans un cadre contractuel et limité et n’a pas bouleversé en profondeur le mode de fonctionnement sur lequel repose les bibliothèques. Mais, avec le développement du crowdsourcing, il pourrait être envisagé d’externaliser (« outsourcing ») certaines de ces tâches, non plus auprès de prestataires, mais auprès de foules (« crowd ») d’internautes et donc de faire faire une partie du travail des professionnels par des amateurs. Le « crowdsourcing » modifie ainsi le paradigme sur lequel repose des bibliothèques encore largement centrées sur la constitution et la conservation de collections. Il modifie également le rapport entre les producteurs d’un service que sont les bibliothécaires et ses consommateurs que sont les usagers, ces derniers devenant également des producteurs actifs du service. Le crowdsourcing pourrait aussi interroger les politiques documentaires des bibliothèques qui anticipent les besoins dans une logique d’offre qui n’est pas directement et immédiatement déterminée par la demande. C’est particulièrement le cas avec la numérisation à la demande par crowdfunding, une forme de crowdsourcing faisant appel, non pas au travail des foules mais à leurs ressources financières ou avec l’impression à la demande qui lui est indissociable. Avec ces modèles économiques à la demande, la politique documentaire est finalement partagée avec les usagers qui décident de ce qui sera numérisé et/ou imprimé. Les collections deviennent ainsi l’œuvre des usagers. Continuer la lecture

oaDOI : un DOI qui pointe vers la version en accès libre de la ressource

oadoi-logo Un blog du billet de Carnet’IST présente le oaDOI. “Cet outil, grâce à un simple copier-coller du DOI d’un document, va à la recherche d’une éventuelle version en accès libre. Un lien oaDOI.org est en quelque sorte une alternative au résolveur doi.org afin d’éviter à l’utilisateur de se retrouver devant une version payante du document qu’il cherche alors qu’il en existe une version en Open Access. Le fonctionnement d’oaDOI pour sa recherche repose principalement sur le DOAJ, BASE et les informations retournées par CrossRef (voir toutes les sources présentées ici).”

Un exemple est donnée sur la page oadoi.about

Pour l’utiliser, il suffit de copier coller son doi sur le site https://oadoi.org/. Une API* est disponible et a déjà été implémentée dans Zotero, dans un package R et pour un widget LibGuides, (lire le billet de Odile contat cité dans les sources).

sources :

* note l’API ou Application Programming Interface est un ensemble normalisé de classes, de méthodes ou de fonctions qui sert de façade par laquelle un logiciel offre des services à d’autres logiciels (source wikipedia).

Réseaux sociaux académiques : usages, limites et recommandations Inra

Le Numéro 1 de ACTIV’IST Focus sur l’IST  de l’INRA porte sur les réseaux sociaux académiques (Researchgate, Academia.edu…), leurs usages et leurs limites  et présente des recommandations pour le chercheur. Il rappelle également la différence entre réseaux sociaux académiques et archives ouvertes.   Télécharger Activ’ist1

 

API ISTEX : tutoriels d’interrogation

L’INIST-CNRS vient de mettre à disposition (24/10/2016) de courts tutoriels pour découvrir et utiliser l’API de la plateforme ISTEX (initiative d’excellence en Information scientifique et technique). Pour le moment 3 modules sont proposés avec de nombreux exemples de requêtes.

Voir aussi : la documentation de l’API ISTEX

ISSN : open and not open linked data

La stratégie d’utilisation et de publication de données liées par l’ISSN International Centre a été présentée par Clément Oury au congrès IFLA satellite “Data in libraries: the big picture”[1].
Après deux premières expérimentations de publication de données en linked data (participation au développement du modèle PRESSoo, ontologie pour des ressources continues, et réalisation du projet ROAD), l’ISSN International Centre désire promouvoir l’ISSN comme un des identifiants de référence dans le web des données tout en maintenant son modèle économique. Il poursuit ainsi deux politiques qui peuvent apparaitre contradictoires dans leur application :

  • publier en linked open data d’un ensemble de métadonnées “essentielles” accompagnant l’ISSN (liste qui reste à définir),
  • publier en linked data, mais non open, des données propres du registre des ISSN (données qui ont fait l’objet d’un travail manuel important depuis des années comme les relations entre les titres, les fusions, les éditions spéciales, les traductions… ) ainsi que certains liens avec les ressources externes.

Le futur portail de l’ISSN proposera des services et des outils différents aux utilisateurs gratuits vs payants et plusieurs modèles de données (light, full et expert) seront développés.

[1] Oury, C., 2016. ISSN: Transitioning to linked data, in: Data in Libraries: The Big Picture. Satellite Meeting of IFLA World Library and Information Congress. https://halshs.archives-ouvertes.fr/halshs-01358415/document [slides]

Voir aussi : l’appel d’offre lancé le 12/09/2016 par l’ISSN-IC pour la réalisation de son nouveau portail Web et de son extranet clients.

Scigraph.com : future plateforme linked data de Springer Nature

Scigraph est un projet de plateforme basée sur les technologies des données liées. Ces  technologies sont utilisées tout au long de la chaine de publication : “we had to create an architecture where RDF is core to the publishing workflow as much as XML is” (Michele Pasin [2]). Annoncée pour fin 2016, Scigraph permettra aux scientifiques de parcourir les graphes de connaissances construits à partir des informations contenues dans les articles et enrichies par des ressources externes (DBpedia, MeSH).

Linked Data Experiences at Springer Nature

Linked Data Experiences at Springer Nature. (M. Pasin ). 14/09/2016. Slide 49. Consulté à l’adresse http://www.slideshare.net/mpasin/linked-data-experiences-at-springer-nature

Les modèles (ontologie noyau et ontologies de domaines), les jeux de données (données bibliographiques des articles et références publiées par NPG depuis 1845), les liens vers des ressources externes, sont disponibles depuis 2012 sur le site nature.com ontologies [3][4] sous licence CC BY 4.0. Le sparql endpoint proposé concomitamment mais très peu utilisé a été supprimé en 2014. Toutes les ressources sont également disponibles sur GitHub Nature Pubishing Group

Vu sur Twitter

Pour en savoir plus :

  1. Présentation de M. Pasin à Semantics 2016 : Linked Data Experiences at Springer Nature
  2. Interview de Tony Hammond et Michele Pasin, architectes du portail nature.com, par Andreas Blumauer (30 mars 2016) : Insights into Nature’s Data Publishing Portal
  3. Présentation de T. Hammond et M. Pasin à LISC2015 : The nature.com ontologies portal (Slides)
  4. Communiqué de presse Nature Publishing Group releases linked data platform du 4/04/2012

Voir aussi :

Softwareheritage.org : une plateforme universelle pour conserver les logiciels libres

softwareheritage
Software heritage permet de collecter et de préserver le code source des logiciels libres et de constituer une archive mondiale.. Déjà presque 3 millions de fichiers de code sont stockés.

L’archive contient déjà les entrepôts orginaux ( non-fork repositories) et publics de GitHub (voir le billet), les “sources packages” de la distribution Debian, et les “tarball relases” du projet GNU.

La recherche s’effectue en tapant un morceau du code ou avec une clé SHA1 (Secure Hash Algorithm) . Pour l’instant les fonctionnalités comme la description de la provenance, la navigation dans les contenus, l’indexation plein texte ou même le téléchargement ne sont pas encore implémentées (voir la feuille de route).

Ce service a été fondé par l’INRIA en 2015. Le DANS Data Archiving and Networking Services et Microsoft sont les premiers sponsors de ce projet qui lance un appel à subventions, vu l’ambition universelle de celui-ci.

https://www.softwareheritage.org/

Sources :

 

 

Elsevier dataSearch : un nouveau moteur de recherche des données de la recherche

Ce moteur de recherche s’inscrit dans la stratégie de positionnement d’Elsevier sur les services pour la gestion des données de la recherche. Pour rappel,  en novembre 2015 apparaissait Mendeley Data, une fonctionnalité du logiciel Mendeley, racheté par Elsevier en 2013, pour stocker et diffuser des données.

Datasearch permet de chercher dans les entrepôts de données de recherche principaux mais aussi dans les supplementary data. L’outil est pour l’instant en version bêta donc encore sous développement.

En juin 2016 les sources indexées, quelquefois partiellement, étaient (voir la FAQ) :

Les données sont  récupérées à travers les API des différents sites ou  à partir d’une sauvegarde de la base qui a été fournie. A partir de ces sources, Datasearch  standardise les informations dans son modèle de données. La FAQ précise que toutes les données indexées sont en open data, sauf celles de Science Direct.

Une recherche dans Datasearch renvoie tous types de documents mais  une interface à facettes permet de sélectionner le type de document souhaité et les sources des données.

Les types de document qui correspondent aux données sont : Tabular Data, File Set, Raw Data et Statistical Data. La distinction ne semble pas évidente et n’est pas encore décrite.

datasearch

Un exemple de résultat de recherche sur DataSearch

Datasearch demande l’avis des utilisateurs sur les fonctionnalités ou améliorations possibles.

https://datasearch.elsevier.com/

sources :

 

Voyant tools : un environnement en ligne d’analyse de textes

voyanttool

Voyant Tools est un environnement en ligne de lecture et d’analyse de textes complété avec des outils de visualisation. Il est  hébergé sur la plateforme Huma-Num, une très grande infrastructure de recherche (TGIR) en humanité numérique qui propose  des services et outils pour traiter les données tout au au long de leur cycle de vie.

Fonctionnement

il suffit d’insérer des urls ou des documents pour pouvoir accéder automatiquement à une interface complète d’analyse : classement des mots les plus fréquents nuage de mots , contexte, etc. Il est possible de choisir et modifier une liste des mots qui ne doivent pas apparaître (stoplist).

La liste d’outils  disponibles est impressionnante http://voyant.tools.huma-num.fr/docs/#!/guide/tools. Un guide d’utilisation est disponible. Chaque corpus est sauvegardé avec une URL disponible pour y accéder. Il est possible de modifier le corpus mais dans ce cas l’URL change.

Voici un exemple d’analyse sur la consultations sur la consultation du Projet de loi pour une République numérique https://www.republique-numerique.fr/project/projet-de-loi-numerique/consultation/consultation.
voyanttoolexemple

 

Accès à Voyant Tools : http://voyant.tools.huma-num.fr/

voir aussi :
Deschamps,Christophe. 2016. Voyant Tools, un puissant service de text mining en open source. 5 février 2016 . Outils froids.  http://www.outilsfroids.net/2016/02/voyant-tools-un-puissant-service-de-text-mining-en-open-source/