Archives par étiquette : linked data

Mise à jour des services d’Agrovoc

La FAO annonce une mise à jour des services pour exploiter Agrovoc.

Agrovoc   est le vocabulaire contrôlé  et un thésaurus couvrant tous les domaines d’intérêt de la FAO incluant la nourriture, l’alimentation l’agriculture la pêche, l’environnement etc… (voir les billets sur blog concernant Agrovoc). Il contient 32000 concepts organisé en hiérarchie avec des traductions en 22 langues.

AGROVOC est disponible dans le language  RDF/SKOS-XL, accessible à partir d’un SPARQL endpoint et peut être téléchargé suivant différent formats. Il est également possible d’inclure Agrovoc dans les applications spécifiques à travers des web services et de le parcourir à travers le site web. Agrovoc est  disponible dans les formats du web de données (linked data) et très utilisé dans toutes les applications en agriculture proposant des données dans ces formats.

AGROVOC est géré grâce à VocBench,  une plateforme open source qui permet de travailler en mode collaboratif et d’éditer des ressources multilingues. Les outils disponibles permettent de :

Agrovoc et Agroportal

AGROVOC est également désormais intégré au portail d’ontologies en agriculture AgroPortal: http://agroportal.lirmm.fr/ontologies/AGROVOC. Ceci permet de facilement créer des alignements (liens d’équivalence) de concepts entre des ontologies hébergées dans AgroPortal (dont de nombreuses produites à l’Inra) et Agrovoc. Ces liens permettent par exemple d’enrichir un concept de son ontologie avec des équivalents dans de nombreuses langues fournis par Agrovoc.

Source : An update of Agrovoc web services. AIMS blog (Agriculture Information Management Standards) . 14 avril 2017 http://aims.fao.org/activity/blog/update-agrovoc-web-services

Persée ouvre son portail de données liées http://data.persee.fr/

Le portail Persée regroupe 650 000 publications scientifiques accessibles librement et gratuitement et  permet une recherche au travers d’outils de navigation exploitant trois index (documents, illustrations et auteurs) et proposant des fonctionnalités de tri par facettes. L’Unité Mixte de Service Persée propose maintenant l’exposition de ses données au format RDF au travers de son triplestore data.persee.fr.

Il ne s’agit toutefois pas uniquement d’une exposition des données, le portail data.persee.fr. se distingue par :

Des alignements avec des référentiels nationaux et internationaux qui « permettent de questionner non plus seulement les données de Persée, mais également celles proposées par IdRef, DBpedia, data.bnf.fr, le Cairo Gazetteer, GBIF, … en une seule et même requête. » (voir le document source cité en référence)

Plusieurs modes d’exploration sont disponibles : le sparql endpoint pour les initiés et l’outil Sparklis qui permettra au plus grand nombre de formuler ses requêtes en langage naturel, sans connaissance a priori des contenus et de leurs modèles.

Des outils de visualisation des données et jeux de données.

Des services d’accompagnement : tutoriels, formations et des lieux d’interaction avec Persée permettant la co-construction de jeux de données et d’outils pour les exploiter.

Le site http://data.persee.fr/

 

Les contacts pour ce projet sont :

  • Nathalie Fargier | nathalie.fargier@persee.fr | 04 26 73 14 80
  • Viviane Boulétreau | viviane.bouletreau@persee.fr | 04 26 73 14 82

Sources : Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées. 10 février 2017.  http://www.persee.fr/documents/10099/0/Annoncesortiedata.pdf/944c70b4-bd11-4f02-9053-570c44e44577. consulté le 10 févier 2017.

Voir aussi les tutoriels sur le site Canalu.tv : https://www.canal-u.tv/producteurs/persee/data_persee_fr.

 

Le thésaurus de l’Unesco publié dans les standards du web sémantique, avec des logiciels libres

Le thésaurus de l’Unesco vient d’être publié et mis en ligne sur la plateforme http://vocabularies.unesco.org. Un billet de la société Sparta, qui a réalisé le travail, explique les technologies utilisées pour ce projet.

Le projet a été mené en deux phases :

Une plateforme de publication qui s’appuie sur  Skosmos , SKOS Play et Fuseki  La couche sémantique est assurée par la publication des données en SKOS, l’un des standards du web sémantique en tant que format d’échange des données, par une interface SPARQL qui permet d’interroger ou d’exploiter les données et par des identifiants URI déréférençables.

Skosmos  permet d’avoir une interface en 4 langues (français, anglais, espagnol et Russe), de naviguer dans le thésaurus et de rechercher directement dans la base documentaire UNESDOC.

unesco-skosmos

UNESCO thesaurus published in Skosmos (Sparna)

SKOS Play  a été utilisé pour générer automatiquement une version du Thesaurus en PDF avec plusieurs entrées.

Fuseki,avec un formulaire personnalisé en SPARQL, est utilisé pour la recherche publique dans le  public SPARQL querying of the thesaurus.

La deuxième phase correspond à l’outil de gestion du thésaurus. Celle-ci est réalisée avec VocBench, un outil libre de gestion de Thesaurus, multi-utilisateurs, en SKOS  développé par l’université de Tor Vergata à Rome. VocBench s’appuie sur le standard SKOS-XL et sur  GraphDB, un « tripplestore » RDF.

unesco-vocbench

UNESCO Thesaurus managed in VocBench (source SPARNA)

Source : UNESCO Thesaurus published with Semantic Web standards and Open-Source software. 6 février 2017. http://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/. visité le 6 février 2017.

ISSN : open and not open linked data

La stratégie d’utilisation et de publication de données liées par l’ISSN International Centre a été présentée par Clément Oury au congrès IFLA satellite « Data in libraries: the big picture »[1].
Après deux premières expérimentations de publication de données en linked data (participation au développement du modèle PRESSoo, ontologie pour des ressources continues, et réalisation du projet ROAD), l’ISSN International Centre désire promouvoir l’ISSN comme un des identifiants de référence dans le web des données tout en maintenant son modèle économique. Il poursuit ainsi deux politiques qui peuvent apparaitre contradictoires dans leur application :

  • publier en linked open data d’un ensemble de métadonnées « essentielles » accompagnant l’ISSN (liste qui reste à définir),
  • publier en linked data, mais non open, des données propres du registre des ISSN (données qui ont fait l’objet d’un travail manuel important depuis des années comme les relations entre les titres, les fusions, les éditions spéciales, les traductions… ) ainsi que certains liens avec les ressources externes.

Le futur portail de l’ISSN proposera des services et des outils différents aux utilisateurs gratuits vs payants et plusieurs modèles de données (light, full et expert) seront développés.

[1] Oury, C., 2016. ISSN: Transitioning to linked data, in: Data in Libraries: The Big Picture. Satellite Meeting of IFLA World Library and Information Congress. https://halshs.archives-ouvertes.fr/halshs-01358415/document [slides]

Voir aussi : l’appel d’offre lancé le 12/09/2016 par l’ISSN-IC pour la réalisation de son nouveau portail Web et de son extranet clients.

Scigraph.com : future plateforme linked data de Springer Nature

Scigraph est un projet de plateforme basée sur les technologies des données liées. Ces  technologies sont utilisées tout au long de la chaine de publication : « we had to create an architecture where RDF is core to the publishing workflow as much as XML is » (Michele Pasin [2]). Annoncée pour fin 2016, Scigraph permettra aux scientifiques de parcourir les graphes de connaissances construits à partir des informations contenues dans les articles et enrichies par des ressources externes (DBpedia, MeSH).

Linked Data Experiences at Springer Nature

Linked Data Experiences at Springer Nature. (M. Pasin ). 14/09/2016. Slide 49. Consulté à l’adresse http://www.slideshare.net/mpasin/linked-data-experiences-at-springer-nature

Les modèles (ontologie noyau et ontologies de domaines), les jeux de données (données bibliographiques des articles et références publiées par NPG depuis 1845), les liens vers des ressources externes, sont disponibles depuis 2012 sur le site nature.com ontologies [3][4] sous licence CC BY 4.0. Le sparql endpoint proposé concomitamment mais très peu utilisé a été supprimé en 2014. Toutes les ressources sont également disponibles sur GitHub Nature Pubishing Group

Vu sur Twitter

Pour en savoir plus :

  1. Présentation de M. Pasin à Semantics 2016 : Linked Data Experiences at Springer Nature
  2. Interview de Tony Hammond et Michele Pasin, architectes du portail nature.com, par Andreas Blumauer (30 mars 2016) : Insights into Nature’s Data Publishing Portal
  3. Présentation de T. Hammond et M. Pasin à LISC2015 : The nature.com ontologies portal (Slides)
  4. Communiqué de presse Nature Publishing Group releases linked data platform du 4/04/2012

Voir aussi :

Le Web de données dans les bibliothèques, archives et musées

Les bibliothèques, archives et musées ont consacré ces dernières années un effort considérable pour investir l’univers du Web des données.

La revue Library Technology Reports consacre un numéro spécial à ce sujet identifiant les tendances, les grands projets, les enjeux et les opportunités, les principaux vocabulaires, schémas, standards et technologies utilisés, les services développés.
Mitchell, E. T. (2016). Library Linked Data: Early Activity and Development. Library Technology Reports, 52(1), 37 p. https://journals.ala.org/ltr/issue/download/534/290

Dans le billet critique Linked data caution Jonathan Rochkind (Johns Hopkins University) interroge les motivations et les risques de ce mouvement, où des projets ambitieux et gourmands en ressources peuvent être guidés d’avantage par la technologie que par des objectifs clairement énoncés, au risque de ne répondre ni aux besoins des utilisateurs ni à la volonté de partager des données. Pour lui les principaux obstacles à l’interopérabilité des données et des services concernent avant tout la modélisation des domaines, la description des données et l’utilisation de modèles et référentiels communs (ainsi que la réticence à partager ses données, les modèles économiques des parties prenantes…). Il est important de bien évaluer les potentialités du Web de données dans son projet, se former aux technologies, rester centré sur les besoins des utilisateurs, ne pas sacrifier la qualité des données dans le processus, ne pas investir des ressources importantes dans le projet sans pouvoir en tirer des bénéfices à chaque étape, et, sans attendre que ses données soient publiées dans le Web des données, leur attribuer des identifiants et les partager sous licence libre.

OpenAIRE en Linked Open Data

openaireLOD

OpenAire est un projet européen visant à diffuser en accès ouvert les publications et les données scientifiques  en libre accès des travaux  des différents projets européns. OpenAire diffuse plus de 13 millions de publications.

Last OpenAIRE portal content update (Dec. 1) = 13.294.130 publications from 688 data providers pic.twitter.com/n03zaK0bov— Pedro Príncipe (@pedroprincipe) 1 Décembre 2015.

OpenAIRE propose à travers le OpenAIRE LOD Services,  l’accès  ouvert à ses contenus publiés  en linked open data. L’objectif étant de  développer l’interopérabilité technique et d’ assurer une meilleure réutilisation et  intégration de différents contenus avec par exemple les données de la recherche ou encore les outils autour de l’écriture et de la communication  scientifique.

Le public ciblé, à la différence du  portail web,  comprend  les développeurs d’application tiers parties et de services mais aussi  des utilisateurs finaux avec les compétences techniques suffisantes pour exploiter les technologies du web sémantique.

Ce service propose trois manières d’accéder aux données :  en explorant les enregistrements de données d’OpenAIRE avec la possibilités de suivre les liens entre les entités reliées de télécharger l’ensemble des données Dump (attention 1.6 Go ) et d’interroger les données de manière interactive avec un SPARQL endpoint.

Les travaux effectués ou en projet portent sur

  • L’implémentation et la spécification du modèle de données OpenAIRE dans un vocabulaire de linked data (un schéma RDF) en s’appuyant sur les vocabulaires existants mais en spécifiant ce qui est propre à OpenAire,
  • L’alignement  des différentes entités de l’espace d’information OpenAire vers d’autres ressources RDF et leur automatisation,
  • La liaison de  OpenAIRE LOD avec d’autres linked open datatsets pour les mettre en valeur, permettre de meilleurs modes de recherche d’information etc..

Accès au site : http://lod.openaire.eu/

Une documentation technique est disponible sur le  LOD Wiki . Certains documents sont réservés aux membres du projet.

 

Publier en linked Open Data des productions scientifiques en utilisant l’ontologie VIVO

rhizomerL’information des institutions est souvent dispersées dans différents systèmes et bases de données utilisant différents vocabulaires et termes spécifiques. ce qui est un frein à la mise à disposition des données.

L’Université de Lleida (Universitat de Lleida)  souhaite publier ses produits de rercherche (articles, projets de recherche, brevets, thèses etc.)  en linked open data.

Ce document décrit l’alignement des bases de données existantes contenant les produits de la recherche, leurs impacts, les cherchers impliqués, leur organisation dans des groupes de recherche avec l’ontologie du projet VIVO.

L’ontology VIVO a été construite à partir de Bibliographic Ontology (BIBO),  appartenant au projet VIVO. Elle  possède une bonne couverture des entités requises et un ensemble de propriétés pour représenter tous les objets.

Toutes ces données sont publiés en linked data en utilisant un outil d’exploration de données sémantiques, Rhizomer pour faciler l’exploration et la visualisation des données. L’application facilite aussi la génération automatique de rapports pour l’évaluation à différents niveaux.

source : Garcia, Roberto; Virgili-Gomá, Jordi; Gil, Rosa (2015). Publishing Linked Open Data about University Scientific Outputs using the VIVO Ontology https://vivo.figshare.com/articles/Publishing_Linked_Open_Data_about_University_Scientific_Outputs_using_the_VIVO_Ontology/2002152. Attention plus d’information en téléchargeant le document

Rhizomer http://rhizomik.net/html/rhizomer/

Une réunion d’experts pour renforcer les aspects sémantiques en agriculture

schemaGACS

from http://aims.fao.org/sites/default/files/files/Breakout_1.pdf

Un workshop « Improving Semantics in Agriculture » a réuni 35 experts  à la FAO les 2 et 3 juillet 2015. Les présentations sont disponibles sur le site AIMS. L’Inra était présent.

L’objectif de ce workshop était de dresser une feuille de route de  gestion de l’information partagée en agriculture en s’appuyant sur le partage de données sémantiques.

Le GACS (« Global Agricultural Concept Scheme ») voir le billet sur ce blog,  a commencé le travail dans cette direction en créant un noyau commun pour les trois thesaurus  majeurs en agriculture – Agrovoc, CAB et NAL – pour créer un entrepôt global de l’information conceptuelle et terminologique.

Il reste encore beaucoup à faire pour créer un point de référence et un hébergement pour les vocabulaires, taxonomies et ontologies en agriculture et nutrition. Après la phase d’expérimentation et de prototype, cette réunion avait pour objectif de proposer des pistes d’ évolutions futures.

Une synthèse « Préworkshop » des besoins de chaque institutions présente a été réuni dans un document. Les présentations des différents intervenants  et l’enregistrement audio des séances sont disponibles sur   http://aims.fao.org/node/117665

Souce « Improving Semantics in Agriculture » Workshop. 2-3 July 2015, FAO HQ. AIMS. http://aims.fao.org/node/117665

Les données liées à la Bibliothèque Nationale des Pays Bas

Theo van Veen et Sieta Neuerburg nous donnent dans le billet « Linked Open Data at the National library of the Netherlands » un aperçu des réalisations et projets en cours de La Bibliothèque Nationale des Pays Bas (Koninklijke Bibliotheek KB) dans le domaine des linked data. Continuer la lecture