Les aspects techniques pour les services de preprints

Un pre-print est une contribution scientifique non validée par les pairs, qui peut être destinée à la publication, mais ce n’est pas une obligation [1]. Les initiatives autour des pre-prints se multiplient et ce type de publication devient de plus en utilisé en sciences de la vie (voir figure 1).

Le document Technical aspects of preprint services in the life sciences: a workshop report [2] reprend les conclusions d’un workshop Asapbio qui est une initiative visant à promouvoir l’usage du preprint en biosciences et dans les communautés en sciences de la vie pour indiquer des recommandations techniques pour les serveur de preprints. Différents acteurs  – éditeurs, financeurs, scientifiques et institutions – ont participé à ce travail. Les recommandations, synthétisées dans le tableau 3 de l’article, concernent entre autres :

  •  l’utilisation de standards (les métadonnées doivent être compatibles avec schema.org et reconnaître les API comme OAI-PMH,
  • l’utilisation d’identifiants pérennes pour les auteurs,  les organisations etc. pour lier les ressources,
  • la convertion des documents dans le format ouvert JATS et/ou XHTML,
  • l’utilisation de licences et de technologies ouvertes pour les applications logicielles
  • l’utilisation de bonnes pratiques pour la vérification manuelle des manuscrits, ainsi que l’utilisation de machine screening (vérification automatique),
  • l’incitation pour le dépôt et le partage des données dans les entrepôts appropriés, mais aussi  faciliter le dépôt direct des supplementary  materials qui devront avoir des identifiants et être correctement indexés et sauvegardés,
  • l’acceptation des soumissions en Word et la diffusion rapide en PDF
  • l’accessibilité des documents pour la fouille de texte et les traitements logiciels
  • le transfert simple des preprints vers le workflow des journaux traditionnels.
évolution des preprints en biologie - http://asapbio.org/preprint-info/biology-preprints-over-time

Figure 1 – Evolution des preprints en biologie – http://asapbio.org/preprint-info/biology-preprints-over-time

 

Sources :

  1. “Les Pre-Prints En 10 Points.” Marlène’s Corner, February 26, 2017. https://marlenescorner.net/2017/02/26/les-pre-prints-en-10-points/.
  2. Chodacki J, Lemberger T, Lin J, Martone M, Mietchen D, Polka J, Sever R, Strasser C (2017) Technical aspects of preprint services in the life sciences: a workshop report. Research Ideas and Outcomes 3: e11825. https://doi.org/10.3897/rio.3.e11825
  3. “ASAPbio : towards a Central Service for Preprints in the Life Sciences”. AIMS Blog.  http://aims.fao.org/activity/blog/asapbio-towards-central-service-preprints-life-science

Voir aussi  les présentations du séminaire  INRA “Publier Autrement” organisé par l’INRA, le 10 Janvier 2017 : https://seminaire.inra.fr/publier/Diaporamas

Mise à jour des services d’Agrovoc

La FAO annonce une mise à jour des services pour exploiter Agrovoc.

Agrovoc   est le vocabulaire contrôlé  et un thésaurus couvrant tous les domaines d’intérêt de la FAO incluant la nourriture, l’alimentation l’agriculture la pêche, l’environnement etc… (voir les billets sur blog concernant Agrovoc). Il contient 32000 concepts organisé en hiérarchie avec des traductions en 22 langues.

AGROVOC est disponible dans le language  RDF/SKOS-XL, accessible à partir d’un SPARQL endpoint et peut être téléchargé suivant différent formats. Il est également possible d’inclure Agrovoc dans les applications spécifiques à travers des web services et de le parcourir à travers le site web. Agrovoc est  disponible dans les formats du web de données (linked data) et très utilisé dans toutes les applications en agriculture proposant des données dans ces formats.

AGROVOC est géré grâce à VocBench,  une plateforme open source qui permet de travailler en mode collaboratif et d’éditer des ressources multilingues. Les outils disponibles permettent de :

Agrovoc et Agroportal

AGROVOC est également désormais intégré au portail d’ontologies en agriculture AgroPortal: http://agroportal.lirmm.fr/ontologies/AGROVOC. Ceci permet de facilement créer des alignements (liens d’équivalence) de concepts entre des ontologies hébergées dans AgroPortal (dont de nombreuses produites à l’Inra) et Agrovoc. Ces liens permettent par exemple d’enrichir un concept de son ontologie avec des équivalents dans de nombreuses langues fournis par Agrovoc.

Source : An update of Agrovoc web services. AIMS blog (Agriculture Information Management Standards) . 14 avril 2017 http://aims.fao.org/activity/blog/update-agrovoc-web-services

I4OC et Open Citation Corpus pour la citation ouverte

L’initiative pour des citations ouvertes, The Initiative for Open Citations,  I4OC est une collaboration entre des éditeurs scientifiques, des chercheurs et d’autres organismes intéressés pour promouvoir la disponibilité sans restrictions des données sur les citations entre les publications scientifiques.

Les citations ne sont généralement pas accessibles en libre accès, elles sont souvent soumises à des licences incohérentes, difficiles à analyser, et sont rarement lisibles par des machines [1]. Les données sur les citations de Crossref seront diffusées par les partenaires qui voient ainsi une nouvelle manière d’identifier les réseaux de recherches à travers les réseaux de citations ou encore, pour les financeurs, de mieux évaluer l’impact des publications [2].

Les données sur les citations sont déposées dans Crossref par les éditeurs et alimentent le service Cited By. Un éditeur participant à I4OC pourra rendre disponibles les citations identifiées par un DOI dont il gère le préfixe et qui seront alors accessibles via les services de CrossRef Metadata Delivery, en particulier via une API REST (voir le guide de l’API  et la FAQ) et un dump.

I4OC  mettra régulièrement à jour le corpus public de citations. Les citations sont aussi disponibles à travers le OpenCitations Corpus,  une base de données qui moissonne systématiquement les données de Crossref et d’autres sources, et qui met ces données à disposition, en “linked open data” suivant l’ontologie Spar – Semantic Publishing and Referencing Ontologies, ainsi qu’un SPARQL Endpoint  pour l’interrogation. Open Citation Corpus diffuse les données sous licence CC0 No Rights Reserved.

Les fondateurs de l’initiative I4OC sont : OpenCitations, Wikimedia Foundation, PLOS, eLife, DataCite et le Centre for Culture and Technology de Curtin University ainsi que des chercheurs (liste reprise du site [1]):  Jonathan Dugan, Martin Fenner, Jan Gerlach, Catriona MacCallum, Daniel Mietchen, Cameron Neylon, Mark Patterson, Michelle Paulson, Silvio Peroni, David Shotton, and Dario Taraborelli.

Le nombre d’éditeurs et des différentes parties intéressées (stakeholders) par l’initiative I4OC  est assez impressionnants voir [1].

sources

  1. i4oc : Initiative for Open Citations.  https://i4oc.org/
  2. Initiative for Open Citations (I4OC) launches with early success. Retrieved April 10, 2017, from http://www.alphagalileo.org/ViewItem.aspx?ItemId=174352&CultureCode=en
  3. OpenCitations  Retrieved April 10, 2017, from http://opencitations.net/

    voir aussi :

    Schiermeier, Q. (n.d.). Initiative aims to break science’s citation paywall. Nature News. https://doi.org/10.1038/nature.2017.21800
    Now free: citation data from 14 million papers, and more might come. Retrieved April 13, 2017, from http://www.sciencemag.org/news/2017/04/now-free-citation-data-14-million-papers-and-more-might-come

ISTEX : extensions pour Firefox et Chrome

Parmi les améliorations apportées par la nouvelle version de l’API (4.1.0),  annoncées dans le billet de blog dédié à la platerforme ISTEX “L’OpenURL passe la seconde…“, deux extensions pour les navigateurs Chrome et Firefox, permettant d’afficher automatiquement un bouton « ISTEX » redirigeant l’utilisateur vers le plein texte PDF lorsqu’il est disponible, seront bientôt rendues publiques.

En attendant, il est déjà possible de bénéficier de cette fonctionnalité dans Google Scholar en le paramétrant pour accéder aux textes intégraux des ressources acquises par ISTEX :

  • aller dans les paramètres de Google Scholar,
  • liens vers les bibliothèques
  • Afficher les liens permettant d’accéder aux bibliothèques suivantes (cinq au maximum) : saisir “istex” et cliquer sur chercher
  • “ISTEX – [PDF] ISTEX” est proposé : le sélectionner
  • Enregistrer

Exemple de résultat dans Google Scholar :

ISTEX : initiative d’excellence en Information scientifique et technique

Vu à : Atelier Interroger et exploiter l’API ISTEX organisé au cours du CARIST2017

Unpaywall, une extension chrome pour trouver la version des articles en open access

Des outils qui exploitent les infrastructures du libre accès et mettent en valeur  le travail effectué par les revues scientifiques, les archives ouvertes et les bibliothèques sur le libre accès se développent. Ainsi  Unpaywall est une nouvelle extension disponible pour le navigateur Chrome (pas testé avec Firefox)  qui permet de trouver les versions en accès libre (open access) des articles que vous êtes en train de consulter.  Unpaywall, développé par Impactstory, utilise l’api oadoi (voir aussi  le billet sur le blog) qui pointe par défaut sur la version open access des documents.  Unpaywall permet d’accéder aux versions open access des articles légalement déposés en accédant aux sources comme  le DOAJ (répertoire des journaux en libre accès), Crossref (service d’échange de métadonnées des articles des principaux éditeurs), DataCite (gestion des identifants), et BASE ( principal moissonneur des archives ouvertes). (voir le billet de AIMS-FAO).

En consultation, dans le navigateur Chrome, un voyant vert apparaît (s’il n’y a pas de version open access, il est gris):

En cliquant sur le voyant vert, la version open access s’affiche :

 

sources :

AnyStyle.io : pour créer des références bibliographiques à partir de listes

Un service web au code source libre, qui permet de créer des références bibliographiques pour Zotero et Endnote à partir de listes bibliographiques en mode texte (Word par exemple).

Qui ne s’est pas demandé un jour comment importer ses listes bibliographiques depuis Word vers Zotero ou Endnote sans passer par de multiples copier/coller ?

AnyStyle.io le permet, en passant d’abord par Zotero.

Ouvrir AnyStyle.io dans le navigateur Firefox (sur lequel on a préalablement installé Zotero)

Copier/coller sa liste de références (une dizaine à la fois) depuis Word

Cliquer sur “parse n references” (séquencer) ; sur cet écran on peut modifier les erreurs éventuelles en les surlignant et en cliquant sur “assign label” si on veut les attribuer à un autre champ ou “unknown” si on veut les supprimer …

Sauvegarder (Save) en format BibTex ; les références sont alors récupérées dans Zotero

Vérifier à nouveau qu’il n’y a pas d’erreurs

Si on veut avoir ses références dans Endnote, exporter sa bibliothèque en format xml et dans Endnote l’importer avec l’option “Endnote generated XML”

Sources

AnyStyle.io: convertir ses références bibliographiques en mode texte (Word, etc) dans un format importable dans Zotero. Zotero.hypotheses.org/663. Frédéric Clavert, 22 juin 2014

Anystyle.io : créer des références pour Zotero et Endnote à partir de listes bibliographiques

Text Analyzer, une autre manière de rechercher des textes dans Jstor

Le blog ‘Jstor Labs’ publie, ce 6/03/17, un billet présentant ‘Text analyser‘, un nouvel outil (en mode béta) de recherche de livres ou d’articles dans la base JSTOR. (Lu sur echosdoc). [2]

Dans le premier écran on saisit par copier coller un  article , un résumé , et même une image ! En téléchargement, les formats acceptés sont :   csv, doc, docx, gif, htm, html, jpg, jpeg, json, pdf, png, pptx, rtf, tif (tiff), txt, xlsx.

Le test ci dessous a été effectué avec le titre et le résumé de l’article ” Assessment of the toxicity of pesticides on honey bee drone fertility using laboratory and semi-field approaches: A case study of fipronil” (*) (figure 1).

Figure 1 -Un résumé d’article est inséré par copier/coller

Text Analyzer reconnait ensuite les termes présents dans le texte saisi et identifie les termes et demande à l’utilisateur de  modifier la priorisation par défaut ou de rajouter les termes. Les documents retrouvés avec les termes s’affichent dans la partie droite.

Text Analyzer effectue trois types d’analyses [3]

  • Les termes (concepts) présents dans le textes sont identifiés utilisant un vocabulaire contrôlé de plus de 40 000 termes  et un ensemble de règles sélectionnées par des humains.
  • Les concepts “sujets latents” sont inférés en utilisant  LDA (Latent Dirichlet allocation)  (**) appliqué sur les contenus JSTOR et avec les termes du vocabulaire controlé.
  • Les entités nommées (Named entities persons, locations, organizations) sont identifiés utilisant plusieurs outils dont Alchemy (de IBM), OpenCalais (de Thompson Reuters), le Stanford Named Entity Recognizer, et Apache OpenNLP et ensuite classés selon leur importance dans le texte.

Les topics sont présentés dans la partie en bas à gauche IDENTIFIED TERMS  (figure 2) dans la partie PRIORITIRIZED TERMS permet de de sélectionner les 5 concepts principaux utilisés pour la recherche des documents qui s’affiche à droite.

Figure 2 – Le résultat de Text Analyzer

Alex Humpreys rappelle que la recherche par mots clés  n’est pas parfaite et c’est la raison pour laquelle Text Analyzer a été développé [1]. Ce serait intéressant d’avoir accès au vocabulaire contrôlé de JSTOR (en linked data)  et pourquoi pas de pouvoir rajouter son propre vocabulaire pour les différentes traitements.

Sources :

  1. Humphreys, Alex. “On Beyond Keyword Search : Introducing Text Analyzer.” Accessed March 7, 2017. http://labs.jstor.org/blog/#!on_beyond_keyword_search-introducing_text_analyzer.
  2. Price, Gary. “A New Way to Search JSTOR: JSTOR Labs Introduces ‘Text Analyzer’ (Beta).” LJ INFOdocket. Accessed March 7, 2017. http://www.infodocket.com/2017/03/06/a-new-way-to-search-jstor-jstor-labs-introduces-text-analyzer-beta/.
  3. “JSTOR Labs Text Analyzer.” Accessed March 7, 2017. https://www.jstor.org/analyze/about.

(*) Kairo, Guillaume, Yannick Poquet, Haïthem Haji, Sylvie Tchamitchian, Marianne Cousin, Marc Bonnet, Michel Pelissier, André Kretzschmar, Luc P. Belzunces, and Jean-Luc Brunet. “Assessment of the Toxicity of Pesticides on Honey Bee Drone Fertility Using Laboratory and Semi-Field Approaches: A Case Study of Fipronil.” Environmental Toxicology and Chemistry, February 1, 2017, n/a-n/a. doi:10.1002/etc.3773.

(**) https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente

Persée ouvre son portail de données liées http://data.persee.fr/

Le portail Persée regroupe 650 000 publications scientifiques accessibles librement et gratuitement et  permet une recherche au travers d’outils de navigation exploitant trois index (documents, illustrations et auteurs) et proposant des fonctionnalités de tri par facettes. L’Unité Mixte de Service Persée propose maintenant l’exposition de ses données au format RDF au travers de son triplestore data.persee.fr.

Il ne s’agit toutefois pas uniquement d’une exposition des données, le portail data.persee.fr. se distingue par :

Des alignements avec des référentiels nationaux et internationaux qui “permettent de questionner non plus seulement les données de Persée, mais également celles proposées par IdRef, DBpedia, data.bnf.fr, le Cairo Gazetteer, GBIF, … en une seule et même requête.” (voir le document source cité en référence)

Plusieurs modes d’exploration sont disponibles : le sparql endpoint pour les initiés et l’outil Sparklis qui permettra au plus grand nombre de formuler ses requêtes en langage naturel, sans connaissance a priori des contenus et de leurs modèles.

Des outils de visualisation des données et jeux de données.

Des services d’accompagnement : tutoriels, formations et des lieux d’interaction avec Persée permettant la co-construction de jeux de données et d’outils pour les exploiter.

Le site http://data.persee.fr/

 

Les contacts pour ce projet sont :

  • Nathalie Fargier | nathalie.fargier@persee.fr | 04 26 73 14 80
  • Viviane Boulétreau | viviane.bouletreau@persee.fr | 04 26 73 14 82

Sources : Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées. 10 février 2017.  http://www.persee.fr/documents/10099/0/Annoncesortiedata.pdf/944c70b4-bd11-4f02-9053-570c44e44577. consulté le 10 févier 2017.

Voir aussi les tutoriels sur le site Canalu.tv : https://www.canal-u.tv/producteurs/persee/data_persee_fr.

 

Le thésaurus de l’Unesco publié dans les standards du web sémantique, avec des logiciels libres

Le thésaurus de l’Unesco vient d’être publié et mis en ligne sur la plateforme http://vocabularies.unesco.org. Un billet de la société Sparta, qui a réalisé le travail, explique les technologies utilisées pour ce projet.

Le projet a été mené en deux phases :

Une plateforme de publication qui s’appuie sur  Skosmos , SKOS Play et Fuseki  La couche sémantique est assurée par la publication des données en SKOS, l’un des standards du web sémantique en tant que format d’échange des données, par une interface SPARQL qui permet d’interroger ou d’exploiter les données et par des identifiants URI déréférençables.

Skosmos  permet d’avoir une interface en 4 langues (français, anglais, espagnol et Russe), de naviguer dans le thésaurus et de rechercher directement dans la base documentaire UNESDOC.

unesco-skosmos

UNESCO thesaurus published in Skosmos (Sparna)

SKOS Play  a été utilisé pour générer automatiquement une version du Thesaurus en PDF avec plusieurs entrées.

Fuseki,avec un formulaire personnalisé en SPARQL, est utilisé pour la recherche publique dans le  public SPARQL querying of the thesaurus.

La deuxième phase correspond à l’outil de gestion du thésaurus. Celle-ci est réalisée avec VocBench, un outil libre de gestion de Thesaurus, multi-utilisateurs, en SKOS  développé par l’université de Tor Vergata à Rome. VocBench s’appuie sur le standard SKOS-XL et sur  GraphDB, un “tripplestore” RDF.

unesco-vocbench

UNESCO Thesaurus managed in VocBench (source SPARNA)

Source : UNESCO Thesaurus published with Semantic Web standards and Open-Source software. 6 février 2017. http://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/. visité le 6 février 2017.

Comparatif de logiciels de veille sur le portail de l’IE

Un tableau comparatif et interactif de plus de 40 logiciels de veille a été mis en ligne par le portail de l’IE  (Centre de Ressources et d’Informations sur l’intelligence Economique et Stratégique). Les graphiques sont interactifs et on peut sélectionner l’information sur un seul outil. Les tableaux sont élaborés à partir des données diffusées par les éditeurs des logiciels mais chacun est invité à apporter des informations complémentaires.

Source : Comparatif de logiciels de veille.18 janvier 2017. https://portail-ie.fr/resource/autre/1531/comparatif-de-logiciels-de-veille.  visité le 6 février 2017