Archives de l’auteur : Pascal M. Aventurier

Unpaywall, une extension chrome pour trouver la version des articles en open access

Des outils qui exploitent les infrastructures du libre accès et mettent en valeur  le travail effectué par les revues scientifiques, les archives ouvertes et les bibliothèques sur le libre accès se développent. Ainsi  Unpaywall est une nouvelle extension disponible pour le navigateur Chrome (pas testé avec Firefox)  qui permet de trouver les versions en accès libre (open access) des articles que vous êtes en train de consulter.  Unpaywall, développé par Impactstory, utilise l’api oadoi (voir aussi  le billet sur le blog) qui pointe par défaut sur la version open access des documents.  Unpaywall permet d’accéder aux versions open access des articles légalement déposés en accédant aux sources comme  le DOAJ (répertoire des jourbaux en libre accès), Crossref (service d’échange de métadonnées des articles des principaux éditeurs), DataCite (gestion des identifants), et BASE ( principal moissonneur des archives ouvertes). (voir le billet de AIMS-FAO).

En consultation, dans le navigateur Chrome, un voyant vert apparaît (s’il n’y a pas de version open access, il est gris):

En cliquant sur le voyant vert, la version open access s’affiche :

 

sources :

Text Analyzer, une autre manière de rechercher des textes dans Jstor

Le blog ‘Jstor Labs’ publie, ce 6/03/17, un billet présentant ‘Text analyser‘, un nouvel outil (en mode béta) de recherche de livres ou d’articles dans la base JSTOR. (Lu sur echosdoc). [2]

Dans le premier écran on saisit par copier coller un  article , un résumé , et même une image ! En téléchargement, les formats acceptés sont :   csv, doc, docx, gif, htm, html, jpg, jpeg, json, pdf, png, pptx, rtf, tif (tiff), txt, xlsx.

Le test ci dessous a été effectué avec le titre et le résumé de l’article ” Assessment of the toxicity of pesticides on honey bee drone fertility using laboratory and semi-field approaches: A case study of fipronil” (*) (figure 1).

Figure 1 -Un résumé d’article est inséré par copier/coller

Text Analyzer reconnait ensuite les termes présents dans le texte saisi et identifie les termes et demande à l’utilisateur de  modifier la priorisation par défaut ou de rajouter les termes. Les documents retrouvés avec les termes s’affichent dans la partie droite.

Text Analyzer effectue trois types d’analyses [3]

  • Les termes (concepts) présents dans le textes sont identifiés utilisant un vocabulaire contrôlé de plus de 40 000 termes  et un ensemble de règles sélectionnées par des humains.
  • Les concepts “sujets latents” sont inférés en utilisant  LDA (Latent Dirichlet allocation)  (**) appliqué sur les contenus JSTOR et avec les termes du vocabulaire controlé.
  • Les entités nommées (Named entities persons, locations, organizations) sont identifiés utilisant plusieurs outils dont Alchemy (de IBM), OpenCalais (de Thompson Reuters), le Stanford Named Entity Recognizer, et Apache OpenNLP et ensuite classés selon leur importance dans le texte.

Les topics sont présentés dans la partie en bas à gauche IDENTIFIED TERMS  (figure 2) dans la partie PRIORITIRIZED TERMS permet de de sélectionner les 5 concepts principaux utilisés pour la recherche des documents qui s’affiche à droite.

Figure 2 – Le résultat de Text Analyzer

Alex Humpreys rappelle que la recherche par mots clés  n’est pas parfaite et c’est la raison pour laquelle Text Analyzer a été développé [1]. Ce serait intéressant d’avoir accès au vocabulaire contrôlé de JSTOR (en linked data)  et pourquoi pas de pouvoir rajouter son propre vocabulaire pour les différentes traitements.

Sources :

  1. Humphreys, Alex. “On Beyond Keyword Search : Introducing Text Analyzer.” Accessed March 7, 2017. http://labs.jstor.org/blog/#!on_beyond_keyword_search-introducing_text_analyzer.
  2. Price, Gary. “A New Way to Search JSTOR: JSTOR Labs Introduces ‘Text Analyzer’ (Beta).” LJ INFOdocket. Accessed March 7, 2017. http://www.infodocket.com/2017/03/06/a-new-way-to-search-jstor-jstor-labs-introduces-text-analyzer-beta/.
  3. “JSTOR Labs Text Analyzer.” Accessed March 7, 2017. https://www.jstor.org/analyze/about.

(*) Kairo, Guillaume, Yannick Poquet, Haïthem Haji, Sylvie Tchamitchian, Marianne Cousin, Marc Bonnet, Michel Pelissier, André Kretzschmar, Luc P. Belzunces, and Jean-Luc Brunet. “Assessment of the Toxicity of Pesticides on Honey Bee Drone Fertility Using Laboratory and Semi-Field Approaches: A Case Study of Fipronil.” Environmental Toxicology and Chemistry, February 1, 2017, n/a-n/a. doi:10.1002/etc.3773.

(**) https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente

Persée ouvre son portail de données liées http://data.persee.fr/

Le portail Persée regroupe 650 000 publications scientifiques accessibles librement et gratuitement et  permet une recherche au travers d’outils de navigation exploitant trois index (documents, illustrations et auteurs) et proposant des fonctionnalités de tri par facettes. L’Unité Mixte de Service Persée propose maintenant l’exposition de ses données au format RDF au travers de son triplestore data.persee.fr.

Il ne s’agit toutefois pas uniquement d’une exposition des données, le portail data.persee.fr. se distingue par :

Des alignements avec des référentiels nationaux et internationaux qui “permettent de questionner non plus seulement les données de Persée, mais également celles proposées par IdRef, DBpedia, data.bnf.fr, le Cairo Gazetteer, GBIF, … en une seule et même requête.” (voir le document source cité en référence)

Plusieurs modes d’exploration sont disponibles : le sparql endpoint pour les initiés et l’outil Sparklis qui permettra au plus grand nombre de formuler ses requêtes en langage naturel, sans connaissance a priori des contenus et de leurs modèles.

Des outils de visualisation des données et jeux de données.

Des services d’accompagnement : tutoriels, formations et des lieux d’interaction avec Persée permettant la co-construction de jeux de données et d’outils pour les exploiter.

Le site http://data.persee.fr/

 

Les contacts pour ce projet sont :

  • Nathalie Fargier | nathalie.fargier@persee.fr | 04 26 73 14 80
  • Viviane Boulétreau | viviane.bouletreau@persee.fr | 04 26 73 14 82

Sources : Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées. 10 février 2017.  http://www.persee.fr/documents/10099/0/Annoncesortiedata.pdf/944c70b4-bd11-4f02-9053-570c44e44577. consulté le 10 févier 2017.

Voir aussi les tutoriels sur le site Canalu.tv : https://www.canal-u.tv/producteurs/persee/data_persee_fr.

 

Le thésaurus de l’Unesco publié dans les standards du web sémantique, avec des logiciels libres

Le thésaurus de l’Unesco vient d’être publié et mis en ligne sur la plateforme http://vocabularies.unesco.org. Un billet de la société Sparta, qui a réalisé le travail, explique les technologies utilisées pour ce projet.

Le projet a été mené en deux phases :

Une plateforme de publication qui s’appuie sur  Skosmos , SKOS Play et Fuseki  La couche sémantique est assurée par la publication des données en SKOS, l’un des standards du web sémantique en tant que format d’échange des données, par une interface SPARQL qui permet d’interroger ou d’exploiter les données et par des identifiants URI déréférençables.

Skosmos  permet d’avoir une interface en 4 langues (français, anglais, espagnol et Russe), de naviguer dans le thésaurus et de rechercher directement dans la base documentaire UNESDOC.

unesco-skosmos

UNESCO thesaurus published in Skosmos (Sparna)

SKOS Play  a été utilisé pour générer automatiquement une version du Thesaurus en PDF avec plusieurs entrées.

Fuseki,avec un formulaire personnalisé en SPARQL, est utilisé pour la recherche publique dans le  public SPARQL querying of the thesaurus.

La deuxième phase correspond à l’outil de gestion du thésaurus. Celle-ci est réalisée avec VocBench, un outil libre de gestion de Thesaurus, multi-utilisateurs, en SKOS  développé par l’université de Tor Vergata à Rome. VocBench s’appuie sur le standard SKOS-XL et sur  GraphDB, un “tripplestore” RDF.

unesco-vocbench

UNESCO Thesaurus managed in VocBench (source SPARNA)

Source : UNESCO Thesaurus published with Semantic Web standards and Open-Source software. 6 février 2017. http://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/. visité le 6 février 2017.

Comparatif de logiciels de veille sur le portail de l’IE

Un tableau comparatif et interactif de plus de 40 logiciels de veille a été mis en ligne par le portail de l’IE  (Centre de Ressources et d’Informations sur l’intelligence Economique et Stratégique). Les graphiques sont interactifs et on peut sélectionner l’information sur un seul outil. Les tableaux sont élaborés à partir des données diffusées par les éditeurs des logiciels mais chacun est invité à apporter des informations complémentaires.

Source : Comparatif de logiciels de veille.18 janvier 2017. https://portail-ie.fr/resource/autre/1531/comparatif-de-logiciels-de-veille.  visité le 6 février 2017

Open Isni for Organizations, un nouveau service pour partager les identifiants ISNI des organisations

L’ISNI est un code international normalisé servant à identifier de manière univoque, sur le long terme et à l’échelle internationale, les personnes et les organismes. La BnF participe à la création et au maintien de cet identifiant et l’intègre dans ses propres données. […] Il permet d’identifier au niveau international les identités publiques des personnes ou des organismes impliqués dans la création, la production, la gestion et la distribution de contenus intellectuels et artistiques ou faisant l’objet de ces contenus. Les personnes identifiées peuvent être, par exemple, l’auteur, l’éditeur, le traducteur, l’illustrateur ou le sujet d’une œuvre.  (extraits du document de la BNF “Qu’est-ce l’ISNI ?”  http://www.bnf.fr/fr/professionnels/isni_informer.html)

“Open Isni for Organizations”  est un nouveau service  pour partager les identifiants ISNI   (International Standard Name Identifier) et les données de plus de  400,000 organisations dans le monde. Le service propose “Open Isni for Organizations” propose :

  • Une API pour obtenir et résoudre les ISNI d’organisation déjà existantes
  • un jeu de données complet à  télédécharger  contenant les ISNI, les noms des organisations, les localisations, les noms alternatifs et les URL et disponible dans les formats Json et CSV.
  • Un service en ligne gratuit pour rechercher les notices ISNI.

Ringgold  est une agence d’enregistrement des ISNI  permet la mise à dispotition des données. Cependant les données propriétaires détenues par Ringgold  comme le  Ringgold ID, metadata, les métadonnées, la démographie et les relations d’organisation, ne ne sont pas disponibles dans ce jeu de données.

Ringgold précise aussi que ce service est dans un but académique et que des entreprises pourraient ne pas figurer dans ce fichier, mais peuvent être trouvées à travers l’interface de recherche de l’ISNI.

source : Open ISNI: a new service to share ISNI identifiers and data for over 400,000 organizations with the world. http://isni.ringgold.com/

Rétrospective 2016

CC0 Public domain

 

 

 

 

 

 

 

L’observatoire de l’IST a publié 27 billets en 2016, ce qui  a généré plus de 33 000  lectures, le nombre de lecture des billets dépassant les 53000. Le compte Twitter lié à ce blog a atteint les 189 “followers”. Les sujets abordés correspondent à des thématiques qui préoccupent la communauté “Information scientifique et technique” de l’INRA : les données liées et leurs applications, les données de la recherche, les nouveaux modes de publications, les métriques alternatives, le text mining et la bibliométrie, l’évolution des outils de l’open access,  les réseaux sociaux académiques….

Nous vous souhaitons une très bonne année 2017  !

L’équipe des rédacteurs et rédactrices.

Liste des billets publiés en 2016. 

SocArXiv, nouveau serveur de preprints en sciences sociales

URFIST : Eléments de comparaison archives ouvertes et réseaux sociaux académiques

Un site web INRA sur la gestion et le partage des données de la recherche

Une thèse au sujet du crowdsourcing et des bibliothèques numériques

oaDOI : un DOI qui pointe vers la version en accès libre de la ressource

Réseaux sociaux académiques : usages, limites et recommandations Inra

API ISTEX : tutoriels d’interrogation

ISSN : open and not open linked data

Scigraph.com : future plateforme linked data de Springer Nature

Softwareheritage.org : une plateforme universelle pour conserver les logiciels libres

Elsevier dataSearch : un nouveau moteur de recherche des données de la recherche

Voyant tools : un environnement en ligne d’analyse de textes

Scholix : lier les données de la recherche et la littérature scientifique

ScanR : le moteur de recherche du MENESR pour identifier les structures de recherche françaises

Zotero 5.0 en version bêta

Elsevier achète le site de preprints en sociologie SSRN

Mettre nos données en réseau – un démonstrateur

Open Knowledge Maps : une interface visuelle pour chercher dans les contenus scientifiques

Crossref va permettre d’associer des DOI spécifiques aux préprints

Opendatamonitor: un site pour trouver, analyser et comparer des données ouvertes

Le panorama des réseaux sociaux 2016 de Fred Cavazza

Nouveau DOI pour les données ARGO : avec Seanoe, une nouvelle façon de citer des données dynamiques

Altmetrics : une nouvelle version de ImpactStory

Une nouvelle façon de publier la recherche ?

Le Web de données dans les bibliothèques, archives et musées

Data Literature Interlinking service

Zotero : comment organiser sa bibliothèque ?

Une feuille de route pour les citations des données dans les entrepôts

Les entrepôts de données jouent un rôle central dans la citation des données car ils fournissent des services de gestion et de découverte des données, un accès pérennes aux données, des identifiants uniques et les métadonnées nécessaires. Pour la citation des données, les entrepôts doivent travailler avec différents acteurs comme les éditeurs, les bases de données bibliographiques, les chercheurs.

Un article publié en preprint dans BioRxiv présente une feuille de route pour que l’implémentation de la citation de données par les entrepôts de données, en particulier dans le domaine des sciences de la vie, soit en accord avec la “Joint Declaration of Data Citation Principles“. Ce travail fait partie du projet DCIP Data Citation Implementation Pilot de Force11.

Cet article synthétise et harmonise les principales recommandations existantes et présente 11 recommandations regroupées selon trois niveaux de priorité de mise en place :

  1. Étapes requises pour suivre “the Joint Declaration of Data Citation Principles”,
  2. Étapes recommandées pour faciliter le workflow de publication article/données
  3. Étapes optionnelles pour renforcer la citation de données dans les entrepôts

Ce document insiste sur l’importance pour l’entrepôt de fournir des métadonnées, que ce soit pour la citation ou pour la découverte des jeux de données, dans les formats les plus utilisés : Dublin Core, Schema.org, DataCite et DATS. Il insiste également sur l’importance de la “landing page” à laquelle doit mener l’identifiant persistant attribué au jeu de données, et qui doit fournir les informations sur les données (métadonnées, accès, licence d’utilisation) dans des formats lisibles par les humains et par les machines en utilisant les balises de Schema.org au format JSON-LD (point 7), mais aussi dans des formats de meta-balises en HTML comme PRISM ou encore Dublin Core HTML (point 8) .

La négociation de contenu  entre les différents services (les entrepôts et les services d’enregistrement d’identifiants comme DataCite ou identifier.org) est également mentionnée : les identifiants pérennes (Persistent Identifier ou PID) doivent pointer vers la landing page et des formats sont également préconisés

Les pratiques de la citation de données peuvent être implémentées dans de nouveaux services comme BioCADDIE, un service de recherche de données en biomédecine.

source :

A Data Citation Roadmap for Scholarly Data Repositories [Preprint]. Martin Fenner, Mercè Crosas, Jeffrey Grethe, David Kennedy, Henning Hermjakob, Philippe Rocca-Serra, Robin Berjon, Sebastian Karcher, Maryann Martone, TimothyClark. 

Voir aussi sur le site Inra Gestion et partage des données scientifiques : citer des données

SocArXiv, nouveau serveur de preprints en sciences sociales

SocArXiv,  est une plateforme open access, open source en sciences sociales, ouverte depuis le 7 décembre 2016, en beta version. Ce site créé en partenariat avec le Center for Open Science (COS)  fournit un service gratuit et non commercial pour la partage des documents scientifiques. Coté technique, il a été construit sur  le  Open Science Framework,  une plateforme générique qui permet aux chercheurs de déposer leurs données, leurs résultats de recherche et leurs codes.

Cette plateforme constitue une alternative  au site Social Science Research Network (SSRN) racheté par Elsevier en 2016 (voir notre billet du 1er juin 2016).

Le COS a ouvert un serveur générique de preprints  le “open preprint repository network”. Ce systéme  héberge  SocArXiv   et permet l’intégration de documents provenant de différents services comme  arXiv (maths et physique),  bioRxiv (Biologie), et les autres  communautés hébergées par COS, dont  engRxiv, and PsyArXiv. (3)

socarchiv

Accès au site https://osf.io/preprints/socarxiv

Sources :

(1) Price, Gary (2016). SocArXiv Formally Launches in Beta Today and Announces Grants From Open Society and Sloan Foundations. InfoDocket. 7 Décembre 2016. http://www.infodocket.com/2016/12/07/repositories-socarxiv-formally-launches-beta-today-announces-grants-from-open-society-and-sloan-foundations/ . Consulté le 12/12/2016.

(2) Cohen, Philip N. (2016). SocArXiv launches, brings sociology and social science into the open, with new grant support.  Scooped. 7 décembre 2016. https://socopen.org/2016/12/07/socarxiv-launches-brings-social-science-out-into-the-open/ Consulté le 12/12/2016.

(3)  SocOpen: Home of SocArXiv (2016).  https://socopen.org. Consulté le 12/12/2016.

URFIST : Eléments de comparaison archives ouvertes et réseaux sociaux académiques

Sur le même sujet que notre Activ’IST 1: “ResearchGate et Academia : usages, limites et recommandations Inra“, Aline Bouchard de l’URFIST propose des éléments comparant HAL et les réseaux sociaux académique Researchgate et Academia.edu.

Le résumé ci-dessous est diffusé sur le site de l’Urfist Paris (*) :

Le succès des réseaux sociaux destinés aux chercheurs ne se dément pas. Paradoxe, et preuve sans doute de ce succès, de plus en plus de chercheurs et d’institutions en appellent à une utilisation vigilante. Les doutes existant en effet sur leurs modèles économiques, le droit des documents déposés ou encore leur usage des données personnelles rappellent combien ces services sont parfois loin des principes de l’open access et et ne sont pas des archives ouvertes.
Si archives ouvertes et réseaux sociaux permettent de diffuser et valoriser la production scientifique, il convient de mettre en lumière leurs différences et leurs points communs. C’est également l’occasion de :
– situer les réseaux sociaux académiques et les archives ouvertes dans l’offre d’outils permettant d’assurer une visibilité à ses travaux sur le web ;
– connaître les principaux réseaux (Academia, ResearchGate) et la principale archive ouverte française (HAL) ;
– avoir conscience des enjeux et des limites de ces services.

Accès au document :  Bouchard, Aline. (2016). Eléments de comparaison archives ouvertes (HAL) et réseaux sociaux académiques (Academia, ResearchGate). 29 Novembre 2016. 49 p.   http://urfist.enc-sorbonne.fr/sites/default/files/ab/Bouchard_Comparaison_AO_RSX_112016.pdf. Consulté le 06/12/2016.

(*) http://urfist.enc.sorbonne.fr/ressources/veille-sur-les-outils/diffuser-ses-travaux-sur-les-reseaux-sociaux-academiques-ou-sur-des