Archives de catégorie : Web sémantique et de données

Thésaurus PLOS : test d’appariement avec DBpedia

LD_POC_Fig1-690x320PLOS utilise pour classer ses contenus (subject areas) son propre thésaurus. Relier celui-ci à des ressources externes, en particulier à DBpedia qui est au cœur du nuage de données liées, lui apporterait une visibilité accrue. C’est dans cette optique que des tests ont été réalisés pour mettre en correspondance les termes du thésaurus avec les concepts de DBpedia.

Les tests ont porté sur la section « Psychology » du thésaurus (119 termes), jugée intéressante car mêlant des termes très techniques et des termes du langage courant. La mise en correspondance a été réalisée avec l’API de DBpedia Spotlight. Les URIs et les définitions de DBpedia ont été ensuite importées dans des champs spécifiques du thésaurus (géré avec MAIstro™).

Seuls 59,7% des termes ont pu être appariés sans ambiguïté avec un concept de DBpedia, ce qui n’est pas un résultat suffisant pour s’abstenir de toute intervention manuelle. Par contre DBpedia Spotlight est une aide à l’appariement puisque 72,3% des termes sont apparus parmi les 5 meilleurs résultats pour la mise en correspondance.

L’étape suivante serait de publier le thésaurus dans le Web des données liées, au format SKOS ou OWL, et d’y intégrer les liens vers DBpedia sous forme d’assertions owl:sameAs. D’autres outils comme SILK Linked Data Integration Framework pourraient alors être utilisés pour relier les concepts du thésaurus à des ressources externes.

Article source : PLOS and DBpedia – an experiment towards Linked Data

OpenAIRE en Linked Open Data

openaireLOD

OpenAire est un projet européen visant à diffuser en accès ouvert les publications et les données scientifiques  en libre accès des travaux  des différents projets européns. OpenAire diffuse plus de 13 millions de publications.

Last OpenAIRE portal content update (Dec. 1) = 13.294.130 publications from 688 data providers pic.twitter.com/n03zaK0bov— Pedro Príncipe (@pedroprincipe) 1 Décembre 2015.

OpenAIRE propose à travers le OpenAIRE LOD Services,  l’accès  ouvert à ses contenus publiés  en linked open data. L’objectif étant de  développer l’interopérabilité technique et d’ assurer une meilleure réutilisation et  intégration de différents contenus avec par exemple les données de la recherche ou encore les outils autour de l’écriture et de la communication  scientifique.

Le public ciblé, à la différence du  portail web,  comprend  les développeurs d’application tiers parties et de services mais aussi  des utilisateurs finaux avec les compétences techniques suffisantes pour exploiter les technologies du web sémantique.

Ce service propose trois manières d’accéder aux données :  en explorant les enregistrements de données d’OpenAIRE avec la possibilités de suivre les liens entre les entités reliées de télécharger l’ensemble des données Dump (attention 1.6 Go ) et d’interroger les données de manière interactive avec un SPARQL endpoint.

Les travaux effectués ou en projet portent sur

  • L’implémentation et la spécification du modèle de données OpenAIRE dans un vocabulaire de linked data (un schéma RDF) en s’appuyant sur les vocabulaires existants mais en spécifiant ce qui est propre à OpenAire,
  • L’alignement  des différentes entités de l’espace d’information OpenAire vers d’autres ressources RDF et leur automatisation,
  • La liaison de  OpenAIRE LOD avec d’autres linked open datatsets pour les mettre en valeur, permettre de meilleurs modes de recherche d’information etc..

Accès au site : http://lod.openaire.eu/

Une documentation technique est disponible sur le  LOD Wiki . Certains documents sont réservés aux membres du projet.

 

Publier en linked Open Data des productions scientifiques en utilisant l’ontologie VIVO

rhizomerL’information des institutions est souvent dispersées dans différents systèmes et bases de données utilisant différents vocabulaires et termes spécifiques. ce qui est un frein à la mise à disposition des données.

L’Université de Lleida (Universitat de Lleida)  souhaite publier ses produits de rercherche (articles, projets de recherche, brevets, thèses etc.)  en linked open data.

Ce document décrit l’alignement des bases de données existantes contenant les produits de la recherche, leurs impacts, les cherchers impliqués, leur organisation dans des groupes de recherche avec l’ontologie du projet VIVO.

L’ontology VIVO a été construite à partir de Bibliographic Ontology (BIBO),  appartenant au projet VIVO. Elle  possède une bonne couverture des entités requises et un ensemble de propriétés pour représenter tous les objets.

Toutes ces données sont publiés en linked data en utilisant un outil d’exploration de données sémantiques, Rhizomer pour faciler l’exploration et la visualisation des données. L’application facilite aussi la génération automatique de rapports pour l’évaluation à différents niveaux.

source : Garcia, Roberto; Virgili-Gomá, Jordi; Gil, Rosa (2015). Publishing Linked Open Data about University Scientific Outputs using the VIVO Ontology https://vivo.figshare.com/articles/Publishing_Linked_Open_Data_about_University_Scientific_Outputs_using_the_VIVO_Ontology/2002152. Attention plus d’information en téléchargeant le document

Rhizomer http://rhizomik.net/html/rhizomer/

« Types de ressources » : un nouveau vocabulaire proposé par COAR

Logo COARLa Confederation of Open Access Repositories (COAR) développe une série de vocabulaires contrôlés pour le Libre Accès. Le premier de ces vocabulaire concerne les types de ressources dont la première version (version provisoire 1.0 du juillet 2015) est disponible pour commentaires jusqu’au 1 Octobre 2015.
Ce vocabulaire est un des livrables du groupe “Controlled Vocabularies for Repository Assets” de COAR auquel l’Inra participe.

Vu sur EchosDoc

Gestion de vocabulaire : Nouvelle version de TemaTres

tematres Tematres vient d’être mis à jour (dernière version 2.0). Cet outil permet de gérer des vocabulaires de tous types :  taxonomies thesaurus ontologie (?) . avec de nouvelles fonctionnalités comme l’interaction avec Moodle, un résumé sur chaque terme, la possibilité d’éditer des rapports et de nouvelles fonctions d’import….Plus de 300 vocabulaires sont disponibles à travers cet outil.

A noter que la FAo développe Vocbench (cité plusieurs fois sur ce blog) , un outil qui rassemble la plupart de ces fonctionnalités mais qui permet la création de rôles pour travailler collectivement sur les termes.

Sources : TemaTres 2.0 released. Diego Ferreyra. August 10, 2015.http://www.vocabularyserver.com/blog/tematres-2-0-released/

Une réunion d’experts pour renforcer les aspects sémantiques en agriculture

schemaGACS

from http://aims.fao.org/sites/default/files/files/Breakout_1.pdf

Un workshop « Improving Semantics in Agriculture » a réuni 35 experts  à la FAO les 2 et 3 juillet 2015. Les présentations sont disponibles sur le site AIMS. L’Inra était présent.

L’objectif de ce workshop était de dresser une feuille de route de  gestion de l’information partagée en agriculture en s’appuyant sur le partage de données sémantiques.

Le GACS (« Global Agricultural Concept Scheme ») voir le billet sur ce blog,  a commencé le travail dans cette direction en créant un noyau commun pour les trois thesaurus  majeurs en agriculture – Agrovoc, CAB et NAL – pour créer un entrepôt global de l’information conceptuelle et terminologique.

Il reste encore beaucoup à faire pour créer un point de référence et un hébergement pour les vocabulaires, taxonomies et ontologies en agriculture et nutrition. Après la phase d’expérimentation et de prototype, cette réunion avait pour objectif de proposer des pistes d’ évolutions futures.

Une synthèse « Préworkshop » des besoins de chaque institutions présente a été réuni dans un document. Les présentations des différents intervenants  et l’enregistrement audio des séances sont disponibles sur   http://aims.fao.org/node/117665

Souce « Improving Semantics in Agriculture » Workshop. 2-3 July 2015, FAO HQ. AIMS. http://aims.fao.org/node/117665

Ouverture du site Transition bibliographique

 

transitionbib

Dans le domaine du catalogage, le défi fondamental auquel les bibliothèques sont confrontées est l’exposition et la visibilité de leurs collections et de leurs métadonnées sur le web. Pour atteindre cet objectif, la France s’est intéressée au code de catalogage RDA (Ressources : Description et Accès)… dont les deux grandes promesses sont les suivantes : – mieux répondre aux attentes des usagers grâce à l’implémentation du modèle FRBR, qui permet le regroupement par œuvres des ressources (imprimées ou numériques) et des recherches plus intuitives ; – gagner en interopérabilité avec les réservoirs de données d’autres communautés afin de répondre à la nécessité économique d’un meilleur partage des tâches de production et d’enrichir les services proposés.[1]

Il semble à l’heure actuelle difficile de convertir les catalogues au format  RDA  mais Il est préférable d’avancer progressivement mais concrètement vers la FRBRisation des catalogues.[3]

Le site  transition bibliographique http://transition-bibliographique.fr/ propose des informations pérennes et d’actualité sur tous les sujets relatifs aux évolutions de l’information bibliographique : nouvelles règles de catalogage, travaux de normalisation en cours, dispositifs de formation, évolutions de l’informatique documentaire. [2].

Voir aussi le billet sur ce blog Dossier sur RDA : Resource Description and Access.

Sources :

  1. De RDA en France à la Transition bibliographique Préconisations de l’ABES et de la BnF pour favoriser l’évolution des catalogues nationaux vers le web des données liées.Novembre 2014. http://www.bnf.fr/documents/1411_transition_bibliographique.pdf
  2. Ouverture du site web du programme « Transition bibliographique ». 26 juin 2015. http://corist-shs.cnrs.fr/node/397
  3. La Transition bibliographique en France. http://transition-bibliographique.fr/enjeux/position-francaise-rda/

Global Agricultural Concept Scheme (GACS)

Global Agricultural Concept Scheme, dont la première version GACS Beta 1.0 vient de sortir, est un projet collaboratif entre la FAO, CABI et la NAL, coordonné par Catarina Carraciolo (FAO), qui a pour objectif la réalisation d’un vocabulaire (informations terminologiques et conceptuelles) commun en agriculture, basé sur les principes et technologies du web de données.

La FAO, CABI et la NAL maintiennent chacun un thésaurus dans le domaine de l’agriculture :

  • Agrovoc : 32 000 concepts, 1,2 million de termes (20 langues)
  • CAB thesaurus : 140 000 concepts, 1,4 million de termes (anglais, espagnol, portugais, allemand, plus d’autres langages sur une moindre couverture)
  • NAL thesaurus : 53 000 concepts, 200 000 termes (anglais, espagnol)

L’enjeu est de fournir des concepts partagés par ces trois thesauri (+ de 13600 concepts communs), d’améliorer leur interopérabilité et de réaliser des économies d’échelle en coopérant pour la maintenance des concepts de base.
GACS Beta est une preuve de concept : chaque partenaire a fourni les 10 000 concepts les plus utilisés dans leurs bases respectives. Les pays, ainsi que la hiérarchie des organismes, ont été ajoutés. La mise en correspondance (mapping) automatique des concepts a été vérifiée ensuite manuellement par les organisations partenaires (5 à 600 heures). Plus de 15 000 concepts ont été identifiés dans GACS Beta à l’issue de ce mapping,.

Outils utilisés

Pour en savoir plus sur les aspects techniques du projet : Global Agricultural Concept Scheme (présentation de Osma Suominen et Thomas Baker).

Source : Global Agricultural Concept Scheme (GACS) Beta 1.0 released | Agricultural Information Management Standards (AIMS)

schema.org 2.0

La version 2.0 du vocabulaire schema.org (balisage sémantique des pages Web) a été publiée le 13 mai 2015. Elle offre en particulier un nouveau mécanisme d’extension permettant l’intégration de types et propriétés propres à divers domaines spécialisés.
Voir les spécifications de schema.org version 2.0 et les détails de la mise à jour.

Vu sur schema blog

Gephi pour visualiser des graphes RDF : un cas pratique

Source : Gephi pour visualiser des graphes RDF. http://blog.sparna.fr/gephi-visualiser-des-graphes-rdf/. 22/04/2015.

sparnagraphcopieecran

L’auteur Thomas Francart pensait qu’il n’y avait pas beaucoup d’intérêt à visualiser les graphes d’un ensemble de triplets RDF jusqu’à ce qu’il doive traiter une problématique de représentation de cartographie d’acteurs du numérique en Touraine. Il explique  les étapes techniques qu’il a réalisées pour construire et visualiser ce graphe.

Le dispositif : Wiki sémantique + triplestore + Gephi / sigma.js

un première étape a été d’utiliser Semantic Media Wiki (voir aussi le billet sur le blog de Sparna). Semantic Media Wiki dispose des mêmes fonctionnalités qu’un wiki « classique » mais avec une description sémantique des informations qui peuvent être exportées et synchronisées  ( fonction d’export RDF) avec un triplestore RDF Sesame. Le triplestore rend les données accessibles sur le web, interrogeables et manipulables via  SPARQL).

Gephi   est un outil de visualisation de  graphe. il peut importer des données en RDF avec un plugin d’intégration à partir de SPARQL , Gephi Semantic Web Import Plugin. Enfin SigmaJS, une librairie jabascript permet de rendre le graphe interactif.

Voir les articles sur Gephi sur notre blog.