Mettre nos données en réseau – un démonstrateur

Mettre nos données en réseau

Punktokomo, le Blog technique de l’ABES, vient de mettre en ligne une série de billets très pédagogiques présentant un démonstrateur illustrant la publication de données conformément aux principes et aux bonnes pratiques du web sémantique, dont l’intérêt et les limites actuelles sont clairement exprimés à travers des exemples concrets. Huit études de cas détaillées illustrant le travail effectué permettent de bien comprendre la méthodologie suivie selon les sources.

Les données proviennent des réseaux ABES, des éditeurs, des institutions culturelles ou dédiées à l’information scientifique et technique, de l’administration. Sont ainsi traitées (modélisées et converties en RDF pour le plupart) les documents provenant d’Istex, de HAL, du Sudoc, des référentiels de personnes (VIAF, ORCID, Idref, annuaire de chercheurs de l’Université Paris IV), des référentiels d’organismes (répertoire national des structures de recherche/RNSR, structures HAL), des référentiels sujet (Rameau, Library of Congress Subject Headings, les thésaurus MeSH et Nature, la classification du Journal of economic literature), des référentiels de bouquets (bouquet Dalloz) et des localisations (liste des bibliothèques).

Les alignements sont également publiés : alignements entre les auteurs de Nature et ORCID, entre les auteurs de Nature et l’International Standard Name Identifier (ISNI), entre les auteurs HAL et IdRef, entre les chercheurs de Paris 4 et IdRef, entre les auteurs de Persée et IdRef, entre les auteurs de Nature (puisqu’ils ne sont pas identifiés de façon unique dans le dump RDF de Nature), entre les auteurs Springer et IdRef, entre les documents Springer et RAMEAU, entre les domaines HAL et Dewey, entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef.

La modélisation, succinctement présentée, a fait appel, entre autres, aux modèles FRBR pour les documents, Vivo pour les auteurs/contributeurs. Les métadonnées de Nature Publication Group ont été récupérées directement en RDF avec le modèle spécifique à cet éditeur.

Ces données ont été agrégées dans un entrepôt RDF. L’accès aux données se fait via une requête SPARQL sur le point d’accès https://lod.abes.fr/sparql (de nombreux exemples de requête sont présentés dans les différents billets) ou par navigation depuis l’interface https://lod.abes.fr/fct.

Source : Punktokomo ; | Blog technique de l’ABES

Open Knowledge Maps : une interface visuelle pour chercher dans les contenus scientifiques

Open knowledge Maps  est une initiative pour créer des interfaces visuelles interactives utilisant des techniques de visualisation de données et de text mining qui peuvent être utilisées par tous pour améliorer la découverte de résultats de recherche.

Les informations du site ne permettent pas de déterminer précisément l’origine de l’initiative, mais les partenaires sont des spécialistes de l’open data, des informations sous licences ouvertes et de la fouille de texte : ContentMine, ROpenSci, Internet Archive Labs,  Know Center (Autriche), et Open Knowledge Austria. Le site lui-même diffuse ses contenus en CC-BY Creative Commons Attribution 4.0 International License.

Pour l’instant l’interface de recherche ne permet que d’explorer les contenus et métadonnées de l’éditeur open access PLOS Public Library of Science Journals.

La carte suivante diffusée sur le site montre les résultats sur le thème “Zika virus” en s’appuyant sur les données de PLOS. On peut choisir  de cliquer sur les cercles pour affiner les résultats ou d’afficher ou non les publications.
openknowledgemapszika

En cliquant sur le cercle “Sequence databases, Sequence alignment”, on voit les articles relevant de cette thématique.
openknowledgemapszikacerccle_sequence

Autour de ces cartes, cette initiative souhaite développer un espace pour l’organisation et l’exploration en connectant les chercheurs, les étudiants, les bibliothécaires, les journalistes les utilisateurs et les citoyens (voir “our mission“).

Une initiative intéressante et à suivre, mais on aimerait en savoir plus sur son fonctionnement.

Crossref va permettre d’associer des DOI spécifiques aux préprints

A partir du mois d’août 2016, Crossref  va modifier sa politique d’enregistrement des documents auprès de ses membre et va permettre d’assigner des Digital Object Identifiers (DOIs) à des “duplicative works.”  La nouvelle politique signifie que les préprints auront des  DOIs séparés des versions ultérieures et pourront être enregistrés auprès de Crossref. Les différentes versions seront ensuite reliées.

L’article rappelle que “Preprint” est un terme qui a différentes significations mais celle retenue par Crossref est :  “un contenu original qui a pour objectif d’être publié dans une publication classique, incluant un contenu qui a déjà été soumis, mais pas encore accepté pour publication”.(original content which is intended for formal publication, including content that has been submitted, but has not yet been accepted for publication).

Source : Crossref To Accept Preprints In Change To Long-standing Policy. http://www.science20.com/news_articles/crossref_to_accept_preprints_in_change_to_longstanding_policy-171985. Accedé le 6 mai 2016.

Opendatamonitor: un site pour trouver, analyser et comparer des données ouvertes

Opendatamonitor est un “observatoire”  des données ouvertes développé dans le cadre d’un projet européen FP7. Opendatamonitor “moissonne” des catalogues de données et permet de localiser des jeux de données ouvertes tout en informant sur leur degré d’ouverture.  Les jeux de données sont analysés selon 4 critères : licence (ouverte ou non), formats (lisibles par les machines ou non), disponibilité et complétude des métadonnées. Par exemple, sur l’ensemble des catalogues moissonnés à ce jour par Opendatamonitor, 75% des jeux de données sont publiés avec une licence ouverte, 45% le sont dans des formats “machine readable”, 65% sont disponibles, et 58% sont décrits avec des métadonnées généralement reconnues comme indispensables (licence, author, organisation, date released and date updated). En France, ces proportions sont respectivement de 46%, 47%, 87% et 72%.
Les catalogues de données de la recherche semblent absents pour l’instant de cette plateforme.

Pour en savoir plus : http://www.opendatamonitor.eu

opendatamonitor

opendatamonitor2

 

Le panorama des réseaux sociaux 2016 de Fred Cavazza

Fred Cavazza dresse une analyse des réseaux sociaux depuis 2008. Il rappelle que ces réseaux sont devenus  des canaux d’information, de communication et d’interaction de tout premier ordre et que le sujet n’est pas si simple à comprendre.

Ci-dessous quelques éléments extraits de son analyse :

  • Facebook atteint une audience mondiale  inégalée avec 1,6 milliard de comptes, dont 1 milliard se connectent chaque jour.
  • cependant plus que l’audience le premier critère de choix pour les annonceurs semble être la qualité de  l’audience et des interconnections;  Ainsi, la part des marques US qui utilisent Twitter est la même que  pour Facebook alors que twitter est 5 fois plus petit.
  • Trois acteurs ultra-dominants  Facebook, Twitter et Google.  “Ces trois sociétés possèdent les services les plus visibles, mais ils créent également un cercle vertueux en relayant les contenus publiés”.
  • “L’avènement des plateformes :   À force de racheter des startups et de lancer de nouvelles fonctionnalités, Facebook et Google se sont petit à petit transformés en de vastes conglomérats offrant quasiment tout ce dont les internautes ont besoin : des contenus pour s’informer et se divertir ainsi que des outils pour communiquer et partager”.
  • Les usages des réseaux sociaux professionnels augmentent et la frontière entre vie privée et professionnelle s’estompe.
  • L’auteur note également la  montée en puissance inexorable des applications de messagerie, et plus particulièrement celles de Facebook ,Messenger et WhatsApp  et rappelle qu’il y a toujours un usage régional des réseaux, notamment sur l’Asie.
auteur : Fred Cavazza https://fredcavazza.wordpress.com/2016/04/22/panorama-des-medias-sociaux-2016/ CC-BY-SA http://creativecommons.org/licenses/by-nc-sa/3.0/fr/

auteur : Fred Cavazza

Source : Panorama des médias sociaux 2016. https://fredcavazza.wordpress.com/2016/04/22/panorama-des-medias-sociaux-2016/. 22 avril 2016

Nouveau DOI pour les données ARGO : avec Seanoe, une nouvelle façon de citer des données dynamiques

 Texte de Frederic Merceur (email Frederic.Merceur@ifremer.fr)  (Ifremer) diffusé sur la liste Renater Acces ouvert le 20 avril 2016 et reproduit avec son aimable autorisation.

Les DOI attribués aux données publiés dans Seanoe (http://www.seanoe.org) permettent de fiabiliser les citations, de simplifier l’accès aux données et de permettre la traçabilité de leur utilisation.

Les données publiées par SEANOE sont accessibles gratuitement. Elles peuvent être réutilisées et contribuer ainsi à une progression plus rapide de la science. Si elles sont citées dans une publication scientifique, un lecteur peut également les rejouer pour vérifier un résultat. La publication et la citation des données dans une publication peuvent donc augmenter la crédibilité de l’étude.

Si les données évoluent dans le temps, plusieurs solutions permettent d’assurer la reproductibilité d’une expérience. Pour les données Argo, une image (snapshot) de l’ensemble des données est figée et conservée tous les mois.

Dans une première version, un DOI principal avait été attribué au jeu de données Argo et des DOI spécifiques avaient été attribués à chaque snapshot mensuel.

Pour se rapprocher des nouvelles recommandations[1] de la Research Data Alliance (RDA), un nouveau DOI unique vient d’être attribué par Seanoe aux données ARGO. Ce DOI unique permet de citer le jeu de données global ou un snaphot spécifique à l’aide du même DOI. Dans cette perspective, chaque snapshot est uploadé dans Seanoe qui lui attribue une URL et une clé. La clé 42350 a par exemple été attribuée au snapshot du 2016-02-08.

La citation du jeu de données global s’effectue en citant le nouveau DOI sans paramètre :

Argo (2000). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC). Seanoe.http://doi.org/10.17882/42182

La citation d’un snapshot spécifique se fait en ajoutant sa clé précédée du caractère # au DOI :

Argo (2016). Argo float data and metadata from Global Data Assembly Centre (Argo GDAC) – Snapshot of Argo GDAC of February, 8th 2016. Seanoe. http://doi.org/10.17882/42182#42350

senaoe

Ce nouveau DOI Argo unique permettra notamment un repérage plus simple des publications qui le citent. Le calcul de statistiques d’utilisation sera également facilité.

Cette solution pour publier les données ARGO dans Seanoe peut-être mise en œuvre pour n’importe quel type de données marines évolutives.

[1] Data Citation of Evolving Data – Research Data Alliancehttps://rd-alliance.org/system/files/documents/RDA-DC-Recommendations_151020.pdf

Altmetrics : une nouvelle version de ImpactStory

Impactstory est une organisation sans but lucratif qui aide les scientifiques à connaître où leurs recherches sont citées, partagées et bien plus.

Une nouvelle version a été  mise en ligne le 8 avril 2016. Impacstory partage maintenant ses indicateurs en trois  : le Buzz , l’engagement et l’ouverture en accès libre  (openness). Le repérage de notifications par email  “nouvelle génération” est renforcée. Des fonctionnalités qui étaient très peu utilisées ont été supprimées. Enfin, il n’y a plus de métriques sur les citations.

Pour créer un compte impactstory, il faut absolument  posséder un identifiant Orcid avec les publications mises à jour dans votre profil car Impactstory vous demandera de vous identifier avec ce système. Seulement les documents avec des DOIs seront pris en compte.

Voici un exemple de la nouvelle interface avec mon compte Orcid https://www.impactstory.org/u/0000-0003-0211-4549/: impactstory-achivement

sources :

Une nouvelle façon de publier la recherche ?

Diapositive1 Annoncé depuis quelques mois sur Twitter, RIO pour “Research Ideas and Outcomes” se présente comme un  “journal” d’un genre nouveau publié par Pensoft. Fondé en 1992 en Bulgarie , “par des universitaires , pour les universitaires”, initialement concentré sur l’édition de livres, cet éditeur est depuis 2010 pionnier en étiquetage et enrichissement sémantique d’articles scientifiques.

La société développe des outils, des workflows et des méthodes innovantes pour la publication d’information et de données scientifiques. Promoteur de la notion de “Data Paper” , Pensoft publie une série de Data Journals spécialisés en biologie, pour lesquels il revendique un processus éditorial complet (Peer Review inclus) particulièrement rapide.

Exemple : Biodiversity Data Journal

Diapositive2

La dernière production de Pensoft, RIO, est en réalité plutôt une plateforme ouverte, qui fonctionne avec un modèle économique “auteur-payeur”, permettant la publication de l’ensemble des différents produits issus d’un processus de recherche (liste complète dans le tableau ci-dessous) y compris d’informations habituellement non publiées : propositions de projets, données, méthodes, workflows, logiciels, rapports de projet, articles de recherche. Ce type de productions, plutôt souterraines, représentent un travail important pour les scientifiques. Ce nouveau dispositif a pour objectif d’en faciliter la diffusion et ainsi de développer, de soutenir les interactions inter- et transdisciplinaires entre les différents acteurs de la recherche (chercheurs, financeurs, étudiants, communicants …).

La couverture thématique est étendue à l’ensemble des domaines de la recherche universitaire, qu’il s’agisse des sciences et technologies, ou des sciences humaines et sociales.

Innovation technique

Une plate-forme intégrative “ARPHA” (http://arpha.pensoft.net//tips_and_tricks) guide les auteurs aux différentes étapes du processus éditorial :  de la création d’un objet (publication) à  son examen (peer reviewing) et sa diffusion. Des templates personnalisables sont fournis aux auteurs pour décrire les différents types de documents acceptés qui peuvent ou non être rassemblés dans une collection contextualisée (entité cohérente autour d’une même idée, d’une même structure …).

Liste des types d’objets acceptés dans RIO

tableau-TD

Peer Review, nouvelle formule et processus en étapes

L’innovation est aussi dans l’organisation revisitée du processus éditorial et notamment de l’étape du Peer Reviewing.

En effet, la plateforme ARPHA permet aux auteurs de travailler sur un manuscrit de façon collaborative dès les premières étapes du processus de rédaction (étape draft) pour  l’analyser, le commenter, l’annoter, le compléter, y intégrer la bibliographie.

Sauf exception (pour quelques types spécifiques), une phase de pré-soumission obligatoire est ensuite activée : les auteurs invitent des personnes de leur domaine (hors co-auteurs) pour évaluer la pertinence et la qualité de leur publication.  Pour éviter toute dérive, le processus se veut transparent : les auteurs engagent leur responsabilité en signant un “Mandatory Author’s Statement”, les reviewers sont identifiés et les avis publiés.
Cette phase est suivie d’une étape de vérification technique automatique du manuscrit, puis d’un examen par le bureau éditorial de RIO pour valider la conformité technique, vérifier le respect des exigences éthiques, et  détecter  d’éventuelles anomalies .

Processus de Peer-reviewing

Diapositive4

Enfin, à l’issue d’un processus au délai sensiblement raccourci (d’après RIO), le manuscrit est publié sous différents formats (HTML, PDF, XML), il est qualifié de “Reviewable publication” et accompagné du rapport d’évaluation de cette première phase de reviewing.

L’auteur peut ensuite choisir une étape supplémentaire d’évaluation (post review) organisée par le journal RIO, et identique à celle coordonnée traditionnellement par les éditeurs. Si cette étape supplémentaire est réalisée et que l’article est validé, le statut de l’article bascule alors en “validated publication”. Deux rapports représentant respectivement les phases de pré et post-reviewing peuvent potentiellement accompagner un article.

Processus de Post-reviewing

Diapositive5

Une stratégie d’ouverture affirmée

Tous les contenus sont accessibles en lecture et associés à une licence de type CC (CC By 4.0 par défaut, ou CC0 ) pour encourager leur réutilisation. RIO souhaite également encourager la rédaction de documents de synthèse (état de l’art) thématiques, et la création d’articles dans Wikipedia.

Un modèle d’avenir ?

Des freins à ce nouveau modèle d’ouverture existent mais RIO met en avant les arguments suivants pour le nouveau modèle proposé :

  • pour les auteurs : une aide technique précieuse via la plateforme ARPHA, et un gain de temps appréciable de l’ensemble du processus éditorial,
  • pour les reviewers : la possibilité grâce à la transparence du dispositif d’avoir une reconnaissance de leur travail de reviewing (rendu citable par un DOI).

Diapositive6

RIO fonctionne sur le modèle économique des APC. Leur coût est modulable en fonction des options choisies par l’auteur (http://riojournal.com/about#Low-Cost-Publishing)

L’interface de recherche paraît conviviale et propose de nombreuses facettes pour filtrer les résultats.

À ce jour, seuls quelques articles ont été publiés. Le modèle est innovant et rend visibles et accessibles les processus de recherche, les résultats et leur évaluation par les pairs (“Open Reviewing”).

On trouve dans le bureau éditorial, des noms connus comme P. Suber mais aussi déjà sur internet des expressions plus  sceptiques sur le devenir de ce “journal” :
http://www.sciencemag.org/news/2015/09/new-journal-wants-publish-your-research-ideas

À  suivre,  pour voir s’il sera réellement apprécié ou non de la communauté scientifique.

Texte rédigé par Dominique L’Hostis, Marianne Peiffer et Sylvie Zasser à partir de l’article :

Mietchen, D., Mounce, R., & Penev, L. (2015). Publishing the research process. Research Ideas and Outcomes, 1, e7547.  10.3897/rio.1.e7547
et des informations publiées sur le site de RIO (http://riojournal.com/)

Le Web de données dans les bibliothèques, archives et musées

Les bibliothèques, archives et musées ont consacré ces dernières années un effort considérable pour investir l’univers du Web des données.

La revue Library Technology Reports consacre un numéro spécial à ce sujet identifiant les tendances, les grands projets, les enjeux et les opportunités, les principaux vocabulaires, schémas, standards et technologies utilisés, les services développés.
Mitchell, E. T. (2016). Library Linked Data: Early Activity and Development. Library Technology Reports, 52(1), 37 p. https://journals.ala.org/ltr/issue/download/534/290

Dans le billet critique Linked data caution Jonathan Rochkind (Johns Hopkins University) interroge les motivations et les risques de ce mouvement, où des projets ambitieux et gourmands en ressources peuvent être guidés d’avantage par la technologie que par des objectifs clairement énoncés, au risque de ne répondre ni aux besoins des utilisateurs ni à la volonté de partager des données. Pour lui les principaux obstacles à l’interopérabilité des données et des services concernent avant tout la modélisation des domaines, la description des données et l’utilisation de modèles et référentiels communs (ainsi que la réticence à partager ses données, les modèles économiques des parties prenantes…). Il est important de bien évaluer les potentialités du Web de données dans son projet, se former aux technologies, rester centré sur les besoins des utilisateurs, ne pas sacrifier la qualité des données dans le processus, ne pas investir des ressources importantes dans le projet sans pouvoir en tirer des bénéfices à chaque étape, et, sans attendre que ses données soient publiées dans le Web des données, leur attribuer des identifiants et les partager sous licence libre.

Data Literature Interlinking service

dli_logo_bigLe portail Data Literature Interlinking Service est un service pilote développé conjointement par le groupe de travail Research Data Alliance Europe/WDS Publishing Data Interest Group, OpenAIRE,  et ICSU World Data System. Basé sur l’outil open source pour la construction d’infrastructures de données D-Net et le moteur de recherche Elasticsearch, il intègre, harmonise et interconnecte jeux de données et publications provenant de diverses sources*, générant un graphe de liens entre les jeux de données et entre les jeux de données et la littérature scientifique. Données et relations sont accessibles via une interface de recherche, via des APIs ou via le protocole OAI-PMH. Des statistiques sur les sources (nombre de jeux de données, de publications et de liens) sont également disponibles. L’enjeu est d’améliorer la visibilité, l’accessibilité et la réutilisation des données.

* Actuellement 19 sources de données :

  • 3TU Datacentrum
  • Australian National Data Service
  • Cambridge Crystallographic Data Centre
  • CrossRef
  • DataCite Resolver
  • Datasets in DataCite
  • Elsevier
  • ICPSR
  • IEDA
  • IEEE
  • OpenAIRE
  • OpenAIRE Resolver
  • PANGAEA
  • PubMed
  • PubMed Resolver
  • RCSB
  • Springer Nature
  • System Deduction
  • Thomson Reuters