ISSN : open and not open linked data

La stratégie d’utilisation et de publication de données liées par l’ISSN International Centre a été présentée par Clément Oury au congrès IFLA satellite “Data in libraries: the big picture”[1].
Après deux premières expérimentations de publication de données en linked data (participation au développement du modèle PRESSoo, ontologie pour des ressources continues, et réalisation du projet ROAD), l’ISSN International Centre désire promouvoir l’ISSN comme un des identifiants de référence dans le web des données tout en maintenant son modèle économique. Il poursuit ainsi deux politiques qui peuvent apparaitre contradictoires dans leur application :

  • publier en linked open data d’un ensemble de métadonnées “essentielles” accompagnant l’ISSN (liste qui reste à définir),
  • publier en linked data, mais non open, des données propres du registre des ISSN (données qui ont fait l’objet d’un travail manuel important depuis des années comme les relations entre les titres, les fusions, les éditions spéciales, les traductions… ) ainsi que certains liens avec les ressources externes.

Le futur portail de l’ISSN proposera des services et des outils différents aux utilisateurs gratuits vs payants et plusieurs modèles de données (light, full et expert) seront développés.

[1] Oury, C., 2016. ISSN: Transitioning to linked data, in: Data in Libraries: The Big Picture. Satellite Meeting of IFLA World Library and Information Congress. https://halshs.archives-ouvertes.fr/halshs-01358415/document [slides]

Voir aussi : l’appel d’offre lancé le 12/09/2016 par l’ISSN-IC pour la réalisation de son nouveau portail Web et de son extranet clients.

Scigraph.com : future plateforme linked data de Springer Nature

Scigraph est un projet de plateforme basée sur les technologies des données liées. Ces  technologies sont utilisées tout au long de la chaine de publication : “we had to create an architecture where RDF is core to the publishing workflow as much as XML is” (Michele Pasin [2]). Annoncée pour fin 2016, Scigraph permettra aux scientifiques de parcourir les graphes de connaissances construits à partir des informations contenues dans les articles et enrichies par des ressources externes (DBpedia, MeSH).

Linked Data Experiences at Springer Nature

Linked Data Experiences at Springer Nature. (M. Pasin ). 14/09/2016. Slide 49. Consulté à l’adresse http://www.slideshare.net/mpasin/linked-data-experiences-at-springer-nature

Les modèles (ontologie noyau et ontologies de domaines), les jeux de données (données bibliographiques des articles et références publiées par NPG depuis 1845), les liens vers des ressources externes, sont disponibles depuis 2012 sur le site nature.com ontologies [3][4] sous licence CC BY 4.0. Le sparql endpoint proposé concomitamment mais très peu utilisé a été supprimé en 2014. Toutes les ressources sont également disponibles sur GitHub Nature Pubishing Group

Vu sur Twitter

Pour en savoir plus :

  1. Présentation de M. Pasin à Semantics 2016 : Linked Data Experiences at Springer Nature
  2. Interview de Tony Hammond et Michele Pasin, architectes du portail nature.com, par Andreas Blumauer (30 mars 2016) : Insights into Nature’s Data Publishing Portal
  3. Présentation de T. Hammond et M. Pasin à LISC2015 : The nature.com ontologies portal (Slides)
  4. Communiqué de presse Nature Publishing Group releases linked data platform du 4/04/2012

Voir aussi :

Softwareheritage.org : une plateforme universelle pour conserver les logiciels libres

softwareheritage
Software heritage permet de collecter et de préserver le code source des logiciels libres et de constituer une archive mondiale.. Déjà presque 3 millions de fichiers de code sont stockés.

L’archive contient déjà les entrepôts orginaux ( non-fork repositories) et publics de GitHub (voir le billet), les “sources packages” de la distribution Debian, et les “tarball relases” du projet GNU.

La recherche s’effectue en tapant un morceau du code ou avec une clé SHA1 (Secure Hash Algorithm) . Pour l’instant les fonctionnalités comme la description de la provenance, la navigation dans les contenus, l’indexation plein texte ou même le téléchargement ne sont pas encore implémentées (voir la feuille de route).

Ce service a été fondé par l’INRIA en 2015. Le DANS Data Archiving and Networking Services et Microsoft sont les premiers sponsors de ce projet qui lance un appel à subventions, vu l’ambition universelle de celui-ci.

https://www.softwareheritage.org/

Sources :

 

 

Elsevier dataSearch : un nouveau moteur de recherche des données de la recherche

Ce moteur de recherche s’inscrit dans la stratégie de positionnement d’Elsevier sur les services pour la gestion des données de la recherche. Pour rappel,  en novembre 2015 apparaissait Mendeley Data, une fonctionnalité du logiciel Mendeley, racheté par Elsevier en 2013, pour stocker et diffuser des données.

Datasearch permet de chercher dans les entrepôts de données de recherche principaux mais aussi dans les supplementary data. L’outil est pour l’instant en version bêta donc encore sous développement.

En juin 2016 les sources indexées, quelquefois partiellement, étaient (voir la FAQ) :

Les données sont  récupérées à travers les API des différents sites ou  à partir d’une sauvegarde de la base qui a été fournie. A partir de ces sources, Datasearch  standardise les informations dans son modèle de données. La FAQ précise que toutes les données indexées sont en open data, sauf celles de Science Direct.

Une recherche dans Datasearch renvoie tous types de documents mais  une interface à facettes permet de sélectionner le type de document souhaité et les sources des données.

Les types de document qui correspondent aux données sont : Tabular Data, File Set, Raw Data et Statistical Data. La distinction ne semble pas évidente et n’est pas encore décrite.

datasearch

Un exemple de résultat de recherche sur DataSearch

Datasearch demande l’avis des utilisateurs sur les fonctionnalités ou améliorations possibles.

https://datasearch.elsevier.com/

sources :

 

Voyant tools : un environnement en ligne d’analyse de textes

voyanttool

Voyant Tools est un environnement en ligne de lecture et d’analyse de textes complété avec des outils de visualisation. Il est  hébergé sur la plateforme Huma-Num, une très grande infrastructure de recherche (TGIR) en humanité numérique qui propose  des services et outils pour traiter les données tout au au long de leur cycle de vie.

Fonctionnement

il suffit d’insérer des urls ou des documents pour pouvoir accéder automatiquement à une interface complète d’analyse : classement des mots les plus fréquents nuage de mots , contexte, etc. Il est possible de choisir et modifier une liste des mots qui ne doivent pas apparaître (stoplist).

La liste d’outils  disponibles est impressionnante http://voyant.tools.huma-num.fr/docs/#!/guide/tools. Un guide d’utilisation est disponible. Chaque corpus est sauvegardé avec une URL disponible pour y accéder. Il est possible de modifier le corpus mais dans ce cas l’URL change.

Voici un exemple d’analyse sur la consultations sur la consultation du Projet de loi pour une République numérique https://www.republique-numerique.fr/project/projet-de-loi-numerique/consultation/consultation.
voyanttoolexemple

 

Accès à Voyant Tools : http://voyant.tools.huma-num.fr/

voir aussi :
Deschamps,Christophe. 2016. Voyant Tools, un puissant service de text mining en open source. 5 février 2016 . Outils froids.  http://www.outilsfroids.net/2016/02/voyant-tools-un-puissant-service-de-text-mining-en-open-source/

Scholix : lier les données de la recherche et la littérature scientifique

scholix2La Research Data Alliance (RDA) et le  International Council for Science World Data System (ICSU-WDS) ont annoncé un nouvel environnement pour lier les publications et les données de la recherche :  The Scholix framework pour  Scholarly Link Exchange.

Scholix consiste en un ensemble de principes et de guides pratiques  pour implémenter des services facilitant la réutilisation, la reproductibilité  des données et l’évaluation transparente de la science.

Les premières recommendations (Guidelines) sont élaborées dans le groupe de travail de RDA : “WDS-RDA Data Publishing Services Working Group“. Elles expliquent que ce travail s’appuie sur les systèmes qui concentrent déjà l’information sur les liens entre la littérature et les données de la recherche et qui sont issus de différentes communautés, par exemple  :

  • CrossRef : système d’agrégation pour les éditeurs
  • DataCite : système d’agrégation pour les “data centre”
  • OpenAIRE : système d’agrégation pour les entrepôts institutionnels : données, preprints et publications
  • Des lieux d’intégration spécifiques à certains domaines scientifiques comme PubMed, Inspire….

Il y a deux options pour que les systèmes d’informations participent à Scholix (onglet participate) :

  • option 1 : les systèmes d’informations fournissent les liens entre données et publications à travers les schéma de métadonnées standards existants, comme Datacite ou Crossref ;
  • option 2 : le système d’information peut devenir un “hub” et partager ses informations sur les publications et les données en utilisant les standards Scholix décrits dans les “Guidelines“. Le système fournissant ce service sera alors rajouté à la liste des premiers services utilisant ces standards. A voir le DLI service développé par OpenAIRE et Pangaea : http://dliservice.research-infrastructures.eu/index.html#

Sources :

ScanR : le moteur de recherche du MENESR pour identifier les structures de recherche françaises


scanrinterfaceScanR, lancé le 6/07/2016 en version bêta est présenté comme “le moteur de la recherche et de l’innovation“ qui permet de rechercher des acteurs de la recherche publiques et privés implantés en France. Il a été développé par le Ministère  de l’Éducation Nationale, de l’Enseignement Supérieur et de la recherche à partir d’un nombre impressionnant de ressources fournies par les organismes de recherches mais aussi par des entités travaillant sur l’Open data (Etalab, OpenData…), des référentiels (GRID, Global Research Identifier Database), RNSR, Répertoire national des structures de recherche, Crossref…), des réservoirs de contenus (Espace.net pour les brevets,  theses.fr pour les thèses) et des archives ouvertes (Prodinra et HAL).

scanR-sources

Ces différentes sources alimentent les pages d’informations sur les structures de recherche. Les utilisateurs peuvent y contribuer directement en signalant des erreurs ou en proposant des enrichissements (crowdsourcing).

ScanR permet en particulier

  • d’identifier des partenaires potentiels sur un projet de recherche
  • de connaître les publications d’un laboratoire ou les brevets d’une entreprise
  • de visualiser  les relations entre les différentes entités
  • ou de visualiser les caractéristiques scientifiques d’un territoire.

L’interface permet une recherche en texte intégral qui peut être filtrée par type d’entité (public / privé), par tutelle (CNRS, INRA…..), par thématiques (listes fermées en français),  par localisation géographique et par projet.

Une recherche sur le mot “forêts” permet d’avoir d’une part la liste des structures pour lesquelles le terme apparaît dans une ou plusieurs sources (source spécifiée : Recherche trouvée dans…) :

structure-foret

Exemple de structure apparaissent en réponse à une requête

et d’autre part une vue synthétique des caractéristiques de ces structure :

scanRforets

Exemple de pages d’informations sur l’unité Écologie des Forêts Méditerranéennes  (URFM) de l’INRA

unité Écologie des Forêts Méditerranéennes - fiche de l'unité

unité Écologie des Forêts Méditerranéennes – fiche de l’unité

 Écologie des Forêts Méditerranéennes - visualisation des collaborations

Écologie des Forêts Méditerranéennes – visualisation des collaborations

Écologie des Forêts Méditerranéennes - Publications

Écologie des Forêts Méditerranéennes – Publications

Des API sont proposés pour exploiter les données de scanR, également disponibles sous licence ouverte sur le portail open data de l’enseignement supérieur et à la recherche.

Vu sur :  ADBU.fr : ScanR: le nouveau moteur de recherche du MENESR qui identifie en quelques clics les orientations et les productions de toutes les structures de recherche françaises. .  Voir aussi la  vidéo de l’annonce

accès à ScanR https://scanr.enseignementsup-recherche.gouv.fr/

 

Pour citer ce billet : Aventurier, Pascal, Cocaud, Sylvie. 2016. « ScanR : le moteur de recherche du MENESR pour identifier les structures de recherche françaises | Observatoire des technologies de l’IST ». Consulté le juillet 7 2016 . http://ist.blogs.inra.fr/technologies/2016/07/07/scanr-le-moteur-de-recherche-du-menesr-pour-identifier-les-structures-de-recherche-francaises/.

Zotero 5.0 en version bêta

zoterologo

 

 

 

La version 5. 0 de Zotero est sortie en version beta. Elle amène des changements importants dans la réécriture du logiciel .

Les personnes qui le souhaitent peuvent tester le logiciel en version beta, mais il faut savoir qu’il faut mieux être à l’aise avec l’outil, que cette version ne fonctionne que dans la version Plugin Firefox et que la base de données ne permet pas de revenir vers la version précédente.

Cette version va améliorer la synchronisation entre le  poste de travail et la base en ligne : meilleure performance en particulier pour les bases importantes, sélection unitaire des références à synchroniser  et extension du modèle de données pour la synchronisation.

Deux nouvelles fonctionnalités :

  1. My Publications  qui permettra de créer une liste personnelle de ses travaux : articles, livres, et autres. Si des documents sont attachés, ils pourront être publiquement disponibles sous la licence spécifiée. il est aussi possible de rajouter des listes de publications à un site web.
  2. Feeds support  qui permettra de suivre des flux RSS or Atom à l’intérieur de Zotero dans le panneau de gauche et ensuite d’insérer des références facilement dans Zotero.

source : Dan Stillman.  Zotero 5.0 Beta . 11/06/2016. https://forums.zotero.org/discussion/59829/zotero-5.0-beta/

API ScienceDirect et entrepôts institutionnels

L’Université de Floride (UF) et Elsevier ont dévoilé fin mai le résultat du projet pilote sur lequel ils collaborent depuis 2014[1] et qui permet à l’université, par le biais de l’API ScienceDirect, de connecter son entrepôt institutionnel IR@UF à la plateforme ScienceDirect. Les nouveaux articles publiés par les chercheurs de UF dans les revues d’Elsevier sont ainsi automatiquement signalés dans l’entrepôt (les métadonnées des articles anciens ont également été récupérées).

Si ce lien entre la plateforme de l’éditeur et l’entrepôt peut accroître la visibilité des publications des chercheurs de l’UF en améliorant l’interopérabilité des systèmes, il ne permet pas en tant que tel le libre accès à la publication puisque les conditions d’accès de l’utilisateur aux textes intégraux sur la plateforme éditoriale sont inchangées. Par ailleurs il permet à Elsevier de collecter des données sur l’activité des utilisateurs qui accèdent à ces publications.

La prochaine étape annoncée du projet est de permettre à tout utilisateur d’accéder à une version intégrale de la publication sur la plateforme éditoriale : la version de l’éditeur pour les abonnés à Science Direct, la version acceptée du manuscript après une période d’embargo pour les autres.

Source : Opening Up the Repository: University of Florida, Elsevier explore interoperability in the publishing space

[1] Automating IR updates: The University of Florida and Elsevier answer questions about their institutional repository pilot project. By Judith Coffey Russell, University of Florida, and Alicia Wise, Elsevier | July 13, 2015