Voyant tools : un environnement en ligne d’analyse de textes

voyanttool

Voyant Tools est un environnement en ligne de lecture et d’analyse de textes complété avec des outils de visualisation. Il est  hébergé sur la plateforme Huma-Num, une très grande infrastructure de recherche (TGIR) en humanité numérique qui propose  des services et outils pour traiter les données tout au au long de leur cycle de vie.

Fonctionnement

il suffit d’insérer des urls ou des documents pour pouvoir accéder automatiquement à une interface complète d’analyse : classement des mots les plus fréquents nuage de mots , contexte, etc. Il est possible de choisir et modifier une liste des mots qui ne doivent pas apparaître (stoplist).

La liste d’outils  disponibles est impressionnante http://voyant.tools.huma-num.fr/docs/#!/guide/tools. Un guide d’utilisation est disponible. Chaque corpus est sauvegardé avec une URL disponible pour y accéder. Il est possible de modifier le corpus mais dans ce cas l’URL change.

Voici un exemple d’analyse sur la consultations sur la consultation du Projet de loi pour une République numérique https://www.republique-numerique.fr/project/projet-de-loi-numerique/consultation/consultation.
voyanttoolexemple

 

Accès à Voyant Tools : http://voyant.tools.huma-num.fr/

voir aussi :
Deschamps,Christophe. 2016. Voyant Tools, un puissant service de text mining en open source. 5 février 2016 . Outils froids.  http://www.outilsfroids.net/2016/02/voyant-tools-un-puissant-service-de-text-mining-en-open-source/

Scholix : lier les données de la recherche et la littérature scientifique

scholix2La Research Data Alliance (RDA) et le  International Council for Science World Data System (ICSU-WDS) ont annoncé un nouvel environnment pour lier les publications et les données de la recherche :  The Scholix framework pour  Scholarly Link Exchange.

Scholix consiste a un ensemble de principes et de guides pratiques  pour implémenter des services facilitant la réutilisation, la reproductibilité  des données et l’évaluation transparente de la science.

Les premières recommendations (Guidelines) sont élaborées dans le groupe de travail de RDA :”WDS-RDA Data Publishing Services Working Group“. Elles expliquent que ce travail s’appuie sur les systèmes qui concentrent déjà l’information sur les liens entre la littérature et les données de la recherche et qui sont issus de différentes communautés, par exemple  :

  • CrossRef : système d’agrégation pour les éditeurs
  • DataCite : système d’agrégation pour les “data centre”
  • OpenAIRE : système d’agrégation les entrepôts institutionnels : données, preprints et publications
  • Des lieux d’intégration spécifiques à certains domaines scientifiques comme PubMed, Inspire….

Il y a deux options pour que les systèmes d’informations participent à Scholix (onglet participate) :

  • option 1 : les systèmes d’informations fournissent les liens entre données et publications à travers les  schéma de métadonnées standards existants, comme Datacite ou Crossref
  • option 2 : Le Système d’information peut devenir un “hub” et partager ses informations sur les publications et les données en utilisant les standards Scholix décrits dans les” Guidelines“. Le système fournissant ce service sera alors rajouté à la liste des premiers services utilisant ces standards. A voir le DLI service développé par Openaire et Pangea : http://dliservice.research-infrastructures.eu/index.html#

sources :

ScanR : le moteur de recherche du MENESR pour identifier les structures de recherche françaises


scanrinterfaceScanR, lancé le 6/07/2016 en version bêta est présenté comme “le moteur de la recherche et de l’innovation“ qui permet de rechercher des acteurs de la recherche publiques et privés implantés en France. Il a été développé par le Ministère  de l’Éducation Nationale, de l’Enseignement Supérieur et de la recherche à partir d’un nombre impressionnant de ressources fournies par les organismes de recherches mais aussi par des entités travaillant sur l’Open data (Etalab, OpenData…), des référentiels (GRID, Global Research Identifier Database), RNSR, Répertoire national des structures de recherche, Crossref…), des réservoirs de contenus (Espace.net pour les brevets,  theses.fr pour les thèses) et des archives ouvertes (Prodinra et HAL).

scanR-sources

Ces différentes sources alimentent les pages d’informations sur les structures de recherche. Les utilisateurs peuvent y contribuer directement en signalant des erreurs ou en proposant des enrichissements (crowdsourcing).

ScanR permet en particulier

  • d’identifier des partenaires potentiels sur un projet de recherche
  • de connaître les publications d’un laboratoire ou les brevets d’une entreprise
  • de visualiser  les relations entre les différentes entités
  • ou de visualiser les caractéristiques scientifiques d’un territoire.

L’interface permet une recherche en texte intégral qui peut être filtrée par type d’entité (public / privé), par tutelle (CNRS, INRA…..), par thématiques (listes fermées en français),  par localisation géographique et par projet.

Une recherche sur le mot “forêts” permet d’avoir d’une part la liste des structures pour lesquelles le terme apparaît dans une ou plusieurs sources (source spécifiée : Recherche trouvée dans…) :

structure-foret

Exemple de structure apparaissent en réponse à une requête

et d’autre part une vue synthétique des caractéristiques de ces structure :

scanRforets

Exemple de pages d’informations sur l’unité Écologie des Forêts Méditerranéennes  (URFM) de l’INRA

unité Écologie des Forêts Méditerranéennes - fiche de l'unité

unité Écologie des Forêts Méditerranéennes – fiche de l’unité

 Écologie des Forêts Méditerranéennes - visualisation des collaborations

Écologie des Forêts Méditerranéennes – visualisation des collaborations

Écologie des Forêts Méditerranéennes - Publications

Écologie des Forêts Méditerranéennes – Publications

Des API sont proposés pour exploiter les données de scanR, également disponibles sous licence ouverte sur le portail open data de l’enseignement supérieur et à la recherche.

Vu sur :  ADBU.fr : ScanR: le nouveau moteur de recherche du MENESR qui identifie en quelques clics les orientations et les productions de toutes les structures de recherche françaises. .  Voir aussi la  vidéo de l’annonce

accès à ScanR https://scanr.enseignementsup-recherche.gouv.fr/

 

Pour citer ce billet : Aventurier, Pascal, Cocaud, Sylvie. 2016. « ScanR : le moteur de recherche du MENESR pour identifier les structures de recherche françaises | Observatoire des technologies de l’IST ». Consulté le juillet 7 2016 . http://ist.blogs.inra.fr/technologies/2016/07/07/scanr-le-moteur-de-recherche-du-menesr-pour-identifier-les-structures-de-recherche-francaises/.

Zotero 5.0 en version bêta

zoterologo

 

 

 

La version 5. 0 de Zotero est sortie en version beta. Elle amène des changements importants dans la réécriture du logiciel .

Les personnes qui le souhaitent peuvent tester le logiciel en version beta, mais il faut savoir qu’il faut mieux être à l’aise avec l’outil, que cette version ne fonctionne que dans la version Plugin Firefox et que la base de données ne permet pas de revenir vers la version précédente.

Cette version va améliorer la synchronisation entre le  poste de travail et la base en ligne : meilleure performance en particulier pour les bases importantes, sélection unitaire des références à synchroniser  et extension du modèle de données pour la synchronisation.

Deux nouvelles fonctionnalités :

  1. My Publications  qui permettra de créer une liste personnelle de ses travaux : articles, livres, et autres. Si des documents sont attachés, ils pourront être publiquement disponibles sous la licence spécifiée. il est aussi possible de rajouter des listes de publications à un site web.
  2. Feeds support  qui permettra de suivre des flux RSS or Atom à l’intérieur de Zotero dans le panneau de gauche et ensuite d’insérer des références facilement dans Zotero.

source : Dan Stillman.  Zotero 5.0 Beta . 11/06/2016. https://forums.zotero.org/discussion/59829/zotero-5.0-beta/

API ScienceDirect et entrepôts institutionnels

L’Université de Floride (UF) et Elsevier ont dévoilé fin mai le résultat du projet pilote sur lequel ils collaborent depuis 2014[1] et qui permet à l’université, par le biais de l’API ScienceDirect, de connecter son entrepôt institutionnel IR@UF à la plateforme ScienceDirect. Les nouveaux articles publiés par les chercheurs de UF dans les revues d’Elsevier sont ainsi automatiquement signalés dans l’entrepôt (les métadonnées des articles anciens ont également été récupérées).

Si ce lien entre la plateforme de l’éditeur et l’entrepôt peut accroître la visibilité des publications des chercheurs de l’UF en améliorant l’interopérabilité des systèmes, il ne permet pas en tant que tel le libre accès à la publication puisque les conditions d’accès de l’utilisateur aux textes intégraux sur la plateforme éditoriale sont inchangées. Par ailleurs il permet à Elsevier de collecter des données sur l’activité des utilisateurs qui accèdent à ces publications.

La prochaine étape annoncée du projet est de permettre à tout utilisateur d’accéder à une version intégrale de la publication sur la plateforme éditoriale : la version de l’éditeur pour les abonnés à Science Direct, la version acceptée du manuscript après une période d’embargo pour les autres.

Source : Opening Up the Repository: University of Florida, Elsevier explore interoperability in the publishing space

[1] Automating IR updates: The University of Florida and Elsevier answer questions about their institutional repository pilot project. By Judith Coffey Russell, University of Florida, and Alicia Wise, Elsevier | July 13, 2015

Elsevier achète le site de preprints en sociologie SSRN

L’information a été largement diffusée et à fait l’objet de nombreux commentaires.

Social Science Research Network (SSRN) a plus de 2 millions d’utilisateurs inscrits, 671 000 résumés de documents et plus de  300 000 auteurs. Sa technologie CiteReader a extrait plus de 9 millions de références et  9 millions de notes de pied de pages, et lié 6 millions de citations de 562 000 documents en full text dans la base eLibrary. Sur le site on peut lire : We have good news! SSRN is joining Mendeley and Elsevier. 

SSRN-goodnews

selon le site Actuallité [1] :

En ligne depuis 1994, SSRN fait état de quelque 600.000 publications et 300.000 auteurs inscrits. Le PDG de la plateforme, Gregg Gordon, espère doubler la taille et l’audience de la société en 5 ans, sur le modèle de la croissance de Mendeley, racheté en 2013 par Elsevier pour 65 millions £, selon certaines sources. En 3 ans, ce service de suivi des publications est passé de 2 à 5 millions d’utilisateurs. L’organigramme de SSRN restera le même, assure Elsevier, tout comme le modèle freemium. 

 SSRN serait ensuite relié à Mendeley, un outil de gestion et de partage des références bibliographiques pour renforcer un peu plus  la diversité des activités de Elsevier dans la communication scientifique [3] ou son contrôle de la communication scientifique [4].

La cause principale de cette opération pourrait être la récupération des données sur les chercheurs déposées dans cet outil [2].

Un billet sur le site OpenAire met en avant le fait que la vente de SSRN, qui a été effectuée par des promoteurs de l’open access (les créateurs de la plateforme), est très trouble pour les utilisateurs qui n’étaient pas forcément conscient que SSRN appartenait à une entité privée depuis sa création en 1994 [5].

Cet achat ne change cependant pas les modalités d’utilisation du réseau SSRN. D’un point de vue technologique sera intéressant de voir comment SSRN et Mendeley seront reliés, les réseaux sociaux académiques ayant très peu de fonctionnalités de gestion de la la bibliographie, à l”inverse Mendeley.

Quelques enseignements à la suite de cet achat :

  • Le flou autour d’outils qui semblent appartenir à des institutions scientifiques mais qui sont en fait détenus par des entreprises ou entités privées ;
  • Dans les mentions de copyright du site  il n’est pas mentionné que  SSRN retient des droits sur les articles… cependant l’ensemble des papiers et la mise en forme par le réseau correspond à une valeur marchande qui a bien été vendu alors qu’individuellement on peut pas réutiliser un document à usage commercial  http://www.ssrn.com/en/index.cfm/dmca-notice-policy/.
  • Nous observons régulièrement que des projets ou des outils disparaissent, changent de modèles économiques en modifiant leur offre gratuite en payante ou encore en étant rachetés par des sociétés à but lucratif. En 2013, nous publiions le billet Elsevier achète Mendeley ;

[1] Oury, Antoine (2016). Elsevier s’achète le réseau social de chercheurs SSRN.Actuallité. https://www.actualitte.com/article/monde-edition/elsevier-s-achete-le-reseau-social-de-chercheurs-ssrn/65039Kelty,

[2] Christopher M. (2016). It’s the Data, Stupid: What Elsevier’s purchase of SSRN also means. Savage Minds. 20/05/2016. http://savageminds.org/2016/05/18/its-the-data-stupid-what-elseviers-purchase-of-ssrn-also-means/

[3] Gordon, Gregg. SSRN—the leading social science and humanities repository and online community—joins Elsevier . Elsevier Connect. 17/052016.  https://www.elsevier.com/connect/ssrn-the-leading-social-science-and-humanities-repository-and-online-community-joins-elsevier.

[4] Elsevier’s increasing control over scholarly infrastructure, and how funders should fix this. Sauropod Vertebra. 22 /05/2016. https://svpow.com/2016/05/22/elseviers-increasing-control-over-scholarly-infrastructure-and-how-funders-should-fix-this/

[5] Ross-Hellauer, Tony (2016). After SSRN: Hallmarks of trust for subject repositories. Blogs.OpenAire.eu : infrastructure services & data, scholarly communication. 25/05/2016. https://blogs.openaire.eu/?p=933

Mettre nos données en réseau – un démonstrateur

Mettre nos données en réseau

Punktokomo, le Blog technique de l’ABES, vient de mettre en ligne une série de billets très pédagogiques présentant un démonstrateur illustrant la publication de données conformément aux principes et aux bonnes pratiques du web sémantique, dont l’intérêt et les limites actuelles sont clairement exprimés à travers des exemples concrets. Huit études de cas détaillées illustrant le travail effectué permettent de bien comprendre la méthodologie suivie selon les sources.

Les données proviennent des réseaux ABES, des éditeurs, des institutions culturelles ou dédiées à l’information scientifique et technique, de l’administration. Sont ainsi traitées (modélisées et converties en RDF pour le plupart) les documents provenant d’Istex, de HAL, du Sudoc, des référentiels de personnes (VIAF, ORCID, Idref, annuaire de chercheurs de l’Université Paris IV), des référentiels d’organismes (répertoire national des structures de recherche/RNSR, structures HAL), des référentiels sujet (Rameau, Library of Congress Subject Headings, les thésaurus MeSH et Nature, la classification du Journal of economic literature), des référentiels de bouquets (bouquet Dalloz) et des localisations (liste des bibliothèques).

Les alignements sont également publiés : alignements entre les auteurs de Nature et ORCID, entre les auteurs de Nature et l’International Standard Name Identifier (ISNI), entre les auteurs HAL et IdRef, entre les chercheurs de Paris 4 et IdRef, entre les auteurs de Persée et IdRef, entre les auteurs de Nature (puisqu’ils ne sont pas identifiés de façon unique dans le dump RDF de Nature), entre les auteurs Springer et IdRef, entre les documents Springer et RAMEAU, entre les domaines HAL et Dewey, entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef.

La modélisation, succinctement présentée, a fait appel, entre autres, aux modèles FRBR pour les documents, Vivo pour les auteurs/contributeurs. Les métadonnées de Nature Publication Group ont été récupérées directement en RDF avec le modèle spécifique à cet éditeur.

Ces données ont été agrégées dans un entrepôt RDF. L’accès aux données se fait via une requête SPARQL sur le point d’accès https://lod.abes.fr/sparql (de nombreux exemples de requête sont présentés dans les différents billets) ou par navigation depuis l’interface https://lod.abes.fr/fct.

Source : Punktokomo ; | Blog technique de l’ABES

Open Knowledge Maps : une interface visuelle pour chercher dans les contenus scientifiques

Open knowledge Maps  est une initiative pour créer des interfaces visuelles interactives utilisant des techniques de visualisation de données et de text mining qui peuvent être utilisées par tous pour améliorer la découverte de résultats de recherche.

Les informations du site ne permettent pas de déterminer précisément l’origine de l’initiative, mais les partenaires sont des spécialistes de l’open data, des informations sous licences ouvertes et de la fouille de texte : ContentMine, ROpenSci, Internet Archive Labs,  Know Center (Autriche), et Open Knowledge Austria. Le site lui-même diffuse ses contenus en CC-BY Creative Commons Attribution 4.0 International License.

Pour l’instant l’interface de recherche ne permet que d’explorer les contenus et métadonnées de l’éditeur open access PLOS Public Library of Science Journals.

La carte suivante diffusée sur le site montre les résultats sur le thème “Zika virus” en s’appuyant sur les données de PLOS. On peut choisir  de cliquer sur les cercles pour affiner les résultats ou d’afficher ou non les publications.
openknowledgemapszika

En cliquant sur le cercle “Sequence databases, Sequence alignment”, on voit les articles relevant de cette thématique.
openknowledgemapszikacerccle_sequence

Autour de ces cartes, cette initiative souhaite développer un espace pour l’organisation et l’exploration en connectant les chercheurs, les étudiants, les bibliothécaires, les journalistes les utilisateurs et les citoyens (voir “our mission“).

Une initiative intéressante et à suivre, mais on aimerait en savoir plus sur son fonctionnement.

Crossref va permettre d’associer des DOI spécifiques aux préprints

A partir du mois d’août 2016, Crossref  va modifier sa politique d’enregistrement des documents auprès de ses membre et va permettre d’assigner des Digital Object Identifiers (DOIs) à des “duplicative works.”  La nouvelle politique signifie que les préprints auront des  DOIs séparés des versions ultérieures et pourront être enregistrés auprès de Crossref. Les différentes versions seront ensuite reliées.

L’article rappelle que “Preprint” est un terme qui a différentes significations mais celle retenue par Crossref est :  “un contenu original qui a pour objectif d’être publié dans une publication classique, incluant un contenu qui a déjà été soumis, mais pas encore accepté pour publication”.(original content which is intended for formal publication, including content that has been submitted, but has not yet been accepted for publication).

Source : Crossref To Accept Preprints In Change To Long-standing Policy. http://www.science20.com/news_articles/crossref_to_accept_preprints_in_change_to_longstanding_policy-171985. Accedé le 6 mai 2016.

Opendatamonitor: un site pour trouver, analyser et comparer des données ouvertes

Opendatamonitor est un “observatoire”  des données ouvertes développé dans le cadre d’un projet européen FP7. Opendatamonitor “moissonne” des catalogues de données et permet de localiser des jeux de données ouvertes tout en informant sur leur degré d’ouverture.  Les jeux de données sont analysés selon 4 critères : licence (ouverte ou non), formats (lisibles par les machines ou non), disponibilité et complétude des métadonnées. Par exemple, sur l’ensemble des catalogues moissonnés à ce jour par Opendatamonitor, 75% des jeux de données sont publiés avec une licence ouverte, 45% le sont dans des formats “machine readable”, 65% sont disponibles, et 58% sont décrits avec des métadonnées généralement reconnues comme indispensables (licence, author, organisation, date released and date updated). En France, ces proportions sont respectivement de 46%, 47%, 87% et 72%.
Les catalogues de données de la recherche semblent absents pour l’instant de cette plateforme.

Pour en savoir plus : http://www.opendatamonitor.eu

opendatamonitor

opendatamonitor2