Archives de catégorie : Métadonnées

Scholix : lier les données de la recherche et la littérature scientifique

scholix2La Research Data Alliance (RDA) et le  International Council for Science World Data System (ICSU-WDS) ont annoncé un nouvel environnement pour lier les publications et les données de la recherche :  The Scholix framework pour  Scholarly Link Exchange.

Scholix consiste en un ensemble de principes et de guides pratiques  pour implémenter des services facilitant la réutilisation, la reproductibilité  des données et l’évaluation transparente de la science.

Les premières recommendations (Guidelines) sont élaborées dans le groupe de travail de RDA : « WDS-RDA Data Publishing Services Working Group« . Elles expliquent que ce travail s’appuie sur les systèmes qui concentrent déjà l’information sur les liens entre la littérature et les données de la recherche et qui sont issus de différentes communautés, par exemple  :

  • CrossRef : système d’agrégation pour les éditeurs
  • DataCite : système d’agrégation pour les « data centre »
  • OpenAIRE : système d’agrégation pour les entrepôts institutionnels : données, preprints et publications
  • Des lieux d’intégration spécifiques à certains domaines scientifiques comme PubMed, Inspire….

Il y a deux options pour que les systèmes d’informations participent à Scholix (onglet participate) :

  • option 1 : les systèmes d’informations fournissent les liens entre données et publications à travers les schéma de métadonnées standards existants, comme Datacite ou Crossref ;
  • option 2 : le système d’information peut devenir un « hub » et partager ses informations sur les publications et les données en utilisant les standards Scholix décrits dans les « Guidelines« . Le système fournissant ce service sera alors rajouté à la liste des premiers services utilisant ces standards. A voir le DLI service développé par OpenAIRE et Pangaea : http://dliservice.research-infrastructures.eu/index.html#

Sources :

Opendatamonitor: un site pour trouver, analyser et comparer des données ouvertes

Opendatamonitor est un « observatoire »  des données ouvertes développé dans le cadre d’un projet européen FP7. Opendatamonitor « moissonne » des catalogues de données et permet de localiser des jeux de données ouvertes tout en informant sur leur degré d’ouverture.  Les jeux de données sont analysés selon 4 critères : licence (ouverte ou non), formats (lisibles par les machines ou non), disponibilité et complétude des métadonnées. Par exemple, sur l’ensemble des catalogues moissonnés à ce jour par Opendatamonitor, 75% des jeux de données sont publiés avec une licence ouverte, 45% le sont dans des formats « machine readable », 65% sont disponibles, et 58% sont décrits avec des métadonnées généralement reconnues comme indispensables (licence, author, organisation, date released and date updated). En France, ces proportions sont respectivement de 46%, 47%, 87% et 72%.
Les catalogues de données de la recherche semblent absents pour l’instant de cette plateforme.

Pour en savoir plus : http://www.opendatamonitor.eu

opendatamonitor

opendatamonitor2

 

Extraction d’affiliations structurées de la littérature scientifique

Le dernier numéro de  D-Lib Magazine présente un article sur un outil  pour extraire les métadonnées structurés des articles scientifiques sous une forme digitale.  Le logiciel CERMINE  est capable d’extraire les auteurs et leurs affiliations d’une publication donnée, d’établir des relations entre auteurs et affiliations et de présenter les métadonnées extraites dans un format structuré lisible par les machines. L’extraction des affiliations s’appuie sur un workflow modulaire, utilise du « machine learning » supervisé et des techniques basées sur des heuristiques. Les résultats ont été évalués : l’extraction d’affiliation est correcte à 84,3% et leur analyse à 92,1%.

Cet article décrit le workflow pour  l’extraction d’affiliations en founissant des détails sur les différentes étapes (voir la figure 1). Il compare aussi  cette solution avec les approches similaires et décrit la méthode d’évaluation et ses résultats. Le logiciel CERMINE et toutes ses fonctionnalités d’extraction et d’analyse d’affiliations est disponible sous une licence open-source.

 Figure 1: Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document's fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed.

Figure 1 from the article : Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document’s fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed. with the authors authorization for use this figure with a CC 4.0 licence.

Source :

Tkaczyk, Dominika; Tarnawski, Bartosz; Bolikowski  Łukasz  (2015). Structured Affiliations Extraction from Scientific Literature. D-Lib Magazine, 21 (11/12). DOI: 10.1045/november2015-tkaczyk

CERMINE : http://cermine.ceon.pl

Gestion de vocabulaire : Nouvelle version de TemaTres

tematres Tematres vient d’être mis à jour (dernière version 2.0). Cet outil permet de gérer des vocabulaires de tous types :  taxonomies thesaurus ontologie (?) . avec de nouvelles fonctionnalités comme l’interaction avec Moodle, un résumé sur chaque terme, la possibilité d’éditer des rapports et de nouvelles fonctions d’import….Plus de 300 vocabulaires sont disponibles à travers cet outil.

A noter que la FAo développe Vocbench (cité plusieurs fois sur ce blog) , un outil qui rassemble la plupart de ces fonctionnalités mais qui permet la création de rôles pour travailler collectivement sur les termes.

Sources : TemaTres 2.0 released. Diego Ferreyra. August 10, 2015.http://www.vocabularyserver.com/blog/tematres-2-0-released/

Guide de ressources sur les taxonomies

Taxonomy Creation & Management Resources est un guide de ressources sur la construction et la gestion des taxonomies, thésaurus, ontologies et autres vocabulaires utiles aux linked data, construit par Eric Ziecker à partir des suggestions de plus de 50 professionnels du domaine.
Ce portail de signets est réalisé avec Springshare, outil propriétaire utilisé en particulier par les bibliothèques pour construire des services de référence virtuels.

D’après le billet de Sylvie Dalbin publié sur la liste du secteur Taxonomies et Métadonnées de l’ADBS

Gestion des données de la recherche : Traduction française des deux guides pour Horizon 2020

Research Data Management by jannekestaaks on Flickr. https://www.flickr.com/photos/jannekestaaks/14391226325

Research Data Management de jannekestaaks on Flickr

D’après le billet « Traduction française des deux guides pour Horizon 2020 » publié le 29 octobre , par Thérèse Hameau sur le site www.donneesdelarecherche.fr

Le service traduction de l’Inist-Cnrs a traduit en français les deux guides publiés par la Commission européenne pour aider les porteurs de projet du Programme-cadre Horizon 2020. Une version des deux guides a été publiée le 19 septembre 2014. et une version modifiée de l’un des guides le 29 octobre 2014.

L’un porte sur le libre accès aux publications scientifiques et aux données de la recherche. Il rappelle le contexte du libre accès et donne quelques définitions. Il détaille les obligations que doivent remplir les bénéficiaires de financement dans le cadre d’H2020 pour rendre leurs articles librement accessibles ainsi que leurs données pour les axes entrant dans le Projet pilote de libre accès aux données.
L’autre fournit les lignes directrices concernant la gestion des données et l’élaboration d’un plan de gestion de ces données.

Bilbo, un outil d’annotation automatique des références citées dans Revues.org

La plateforme Revues.org est un site de revues en accès libre principalement en SHS, fonctionnant selon le modèle Freemium. Elle fait partie des plateformes de diffusion du  OpenEdition.org.

Open Edition a annoncé la mise en place de Bilbo [2], un  outil d’annotation automatique des références bibliographiques,  dans le cadre du programme de recherche et développement « Robust and Language Independent Machine Learning Approaches for Automatic Annotation of Bibliographical References in DH Books, Articles and Blogs ».

Extrait de [1] : Initié en 2011 suite à l’obtention d’un Google Grant for Digital Humanities, ce programme a été mené par les équipes du LIA (université d’Avignon) puis du LSIS (Aix-Marseille université – CNRS) et du Cléo sous la direction de Patrice Bellot et Marin Dacos.  Il porte sur l’ensemble des références bibliographiques présentes sur les quatre plateformes : Revues.org, Calenda, Hypothèses et OpenEdition Books. Il doit permettre de développer des fonctionnalités avancées de cross-linking (références croisées) entre les contenus d’OpenEdition et vers les contenus extérieurs.

Bilbo permet par exemple de rajouter des DOI aux références des articles de Revues.org (voir ci-dessous).

Sources :

Parution : Le Web sémantique en bibliothèque de Emmanuelle Bermès

« Le Web sémantique en bibliothèque« , Emmanuelle Bermès avec la collaboration d’Antoine Isaac et Gautier Poupeau – Electre-Ed. du Cercle de la Librairie, Paris. Collection : Bibliothèques – 171 pages; (24 x 17 cm) – EAN13 : 9782765414179. 2014.

Sur le site de la librairie Mollat.com, on peut feuilleter les 20 premières pages, un résumé, et la 4eme de couverture.

La première partie explique les objectifs et les promesses du web de données pour les bibliothèques. La seconde partie présente quatre cas pratiques d’application à leur usage : publier des données en RDF, enrichir les pages web, agréger les données, lier les données avec le LED (linked enterprise data).

« Le Web sémantique en bibliothèque Le Web a permis de créer un espace d’information documentaire sans frontière et interopérable. Pourtant, les données structurées contenues dans les bases de données lui échappent encore : c’est pour relever ce défi que le W3C travaille, depuis plus de vingt ans, à l’élaboration d’un ensemble de technologies et de normes connues sous le nom de Web sémantique. Ces dernières années, l’intérêt pour le Web sémantique n’a cessé de croître dans les bibliothèques. Promesse d’interopérabilité et d’ouverture, cette technologie offre aux institutions culturelles la perspective d’ancrer leurs données dans le Web pour offrir aux usagers des services plus performants. De nouveaux modèles comme FRBR et RDA viennent révolutionner le catalogue. Documentalistes, archivistes, administrateurs de bases de données voient leurs compétences converger. De nombreuses journées d’études ou séminaires de formation ont donné jour à une abondante littérature concernant le Web sémantique en bibliothèque. Pourtant, appréhender l’ensemble des techniques concernées, bien saisir leurs enjeux et envisager leur application reste une gageure pour le bibliothécaire néophyte dans ce domaine. Ce manuel expose de manière synthétique les différentes briques technologiques qui constituent le Web sémantique. La première partie expose l’intérêt et les enjeux de ces technologies dans le domaine des bibliothèques et plus largement des institutions patrimoniales et de la documentation. La seconde propose, à travers quatre cas pratiques, d’appliquer pas à pas ‘ les principes du Web sémantique aux données des bibliothèques, de la publication des données à leur réutilisation dans différents contextes. »

D’après la table des matières, le livre présente une anayse des différents formats des catalogues de bibliothèques (MARC, Dublin Core, FRBR, RDA,), des réalisations sur l’interopérabilité des catalogues et des vocabulaires, des méthodes pour la création d’ontologie et pour la gestion  de vocabulaires avec SKOS.

4 cas pratiques sont détaillés :

  • Publier des données en RDF
  • Enrichir les pages Web
  • Agréger et réutiliser les données
  • Lier les données internes avec le LED

Sources :

 

JocondeLab : utilisation du web sémantique pour un accès multilingue aux ressources culturelles françaises

JocondeLab, site issu d’un projet expérimental de tagging sémantique contributif appliqué à 300 000 œuvres de la base Joconde du ministère de la Culture et de la Communication, a été inauguré le 27 janvier. Exploitant les technologies du Web des données il relie les mots-clés de la base Joconde aux entrées de DBpedia en français. Ces liens permettent d’enrichir la recherche et la navigation sur le site avec les métadonnées extraites de Wikipedia, et en particulier les termes équivalents dans diverses langues, offrant ainsi un accès multilingue aux ressources sans qu’il ait été nécessaire de passer par une étape de traduction. Les entrées de Wikipedia sont également utilisées pour suggérer, par autocomplétion, les tags qu’un contributeur (anonyme) peut ajouter pour décrire une œuvre de son choix ou proposée par JocondeLab. JocondeLab est actuellement proposé en 14 langues. Outre la recherche, le site permet de naviguer à partir d’une carte du monde, d’une frise chronologique ou d’un nuage de mots-clés.

Le projet Joconde-Lab est dirigé par la délégation générale à la langue française et aux langues de France en collaboration avec le service des musées de France et le département des programmes numériques. La plate-forme est développée par l’Institut de Recherche et d’Innovation (IRI).

En savoir plus : http://jocondelab.iri-research.org/jocondelab/about/

Vu sur : ENSSIB

 

Exemple d’utilisation des outils du web dans un processus collaboratif de production de métadonnées

L’université de North Texas (UNT) et la Société d’Histoire de l’Oklahoma (OHS) collaborent dans un projet de numérisation et de publication de plus d’un million de photographies d’archives historiques (disponibles sur le portail The Gateway to Oklahoma History). Pour ce projet, ils sont mis au point un processus dans lequel ils utilisent les outils du web Open Refine et Google Fusion Tables pour vérifier et nettoyer les métadonnées produites au moment de la numérisation. Ce processus permet aux 2 institutions de se partager les tâches et de travailler simultanément sur les métadonnées, chacun s’attachant à un type de données et à un aspect différent du nettoyage (lieux, images, dates…etc.).
Le processus comporte 5 étapes : préparation de l’image pour la numérisation, saisie de l’image et génération des métadonnées (groupées par lots de 40 000 images/métadonnées au format csv), nettoyage des métadonnées à l’aide d’Open Refine et Google Fusion Tables, mapping des métadonnées et conversion au format Dublin Core qualifié en XML (outil m2m développé localement), dernières modifications et contrôle de la qualité des métadonnées obtenues (via le portail).

Référence :
Mark Phillips, Hannah Tarver, and Stacy Frakes (2013). Implementing a Collaborative Workflow for Metadata Analysis, Quality Improvement, and Mapping. code{4}lib Journal, 23, article 9199. http://journal.code4lib.org/articles/9199