Archives de catégorie : Web sémantique et de données

Persée ouvre son portail de données liées http://data.persee.fr/

Le portail Persée regroupe 650 000 publications scientifiques accessibles librement et gratuitement et  permet une recherche au travers d’outils de navigation exploitant trois index (documents, illustrations et auteurs) et proposant des fonctionnalités de tri par facettes. L’Unité Mixte de Service Persée propose maintenant l’exposition de ses données au format RDF au travers de son triplestore data.persee.fr.

Il ne s’agit toutefois pas uniquement d’une exposition des données, le portail data.persee.fr. se distingue par :

Des alignements avec des référentiels nationaux et internationaux qui “permettent de questionner non plus seulement les données de Persée, mais également celles proposées par IdRef, DBpedia, data.bnf.fr, le Cairo Gazetteer, GBIF, … en une seule et même requête.” (voir le document source cité en référence)

Plusieurs modes d’exploration sont disponibles : le sparql endpoint pour les initiés et l’outil Sparklis qui permettra au plus grand nombre de formuler ses requêtes en langage naturel, sans connaissance a priori des contenus et de leurs modèles.

Des outils de visualisation des données et jeux de données.

Des services d’accompagnement : tutoriels, formations et des lieux d’interaction avec Persée permettant la co-construction de jeux de données et d’outils pour les exploiter.

Le site http://data.persee.fr/

 

Les contacts pour ce projet sont :

  • Nathalie Fargier | nathalie.fargier@persee.fr | 04 26 73 14 80
  • Viviane Boulétreau | viviane.bouletreau@persee.fr | 04 26 73 14 82

Sources : Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées. 10 février 2017.  http://www.persee.fr/documents/10099/0/Annoncesortiedata.pdf/944c70b4-bd11-4f02-9053-570c44e44577. consulté le 10 févier 2017.

Voir aussi les tutoriels sur le site Canalu.tv : https://www.canal-u.tv/producteurs/persee/data_persee_fr.

 

Le thésaurus de l’Unesco publié dans les standards du web sémantique, avec des logiciels libres

Le thésaurus de l’Unesco vient d’être publié et mis en ligne sur la plateforme http://vocabularies.unesco.org. Un billet de la société Sparta, qui a réalisé le travail, explique les technologies utilisées pour ce projet.

Le projet a été mené en deux phases :

Une plateforme de publication qui s’appuie sur  Skosmos , SKOS Play et Fuseki  La couche sémantique est assurée par la publication des données en SKOS, l’un des standards du web sémantique en tant que format d’échange des données, par une interface SPARQL qui permet d’interroger ou d’exploiter les données et par des identifiants URI déréférençables.

Skosmos  permet d’avoir une interface en 4 langues (français, anglais, espagnol et Russe), de naviguer dans le thésaurus et de rechercher directement dans la base documentaire UNESDOC.

unesco-skosmos

UNESCO thesaurus published in Skosmos (Sparna)

SKOS Play  a été utilisé pour générer automatiquement une version du Thesaurus en PDF avec plusieurs entrées.

Fuseki,avec un formulaire personnalisé en SPARQL, est utilisé pour la recherche publique dans le  public SPARQL querying of the thesaurus.

La deuxième phase correspond à l’outil de gestion du thésaurus. Celle-ci est réalisée avec VocBench, un outil libre de gestion de Thesaurus, multi-utilisateurs, en SKOS  développé par l’université de Tor Vergata à Rome. VocBench s’appuie sur le standard SKOS-XL et sur  GraphDB, un “tripplestore” RDF.

unesco-vocbench

UNESCO Thesaurus managed in VocBench (source SPARNA)

Source : UNESCO Thesaurus published with Semantic Web standards and Open-Source software. 6 février 2017. http://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/. visité le 6 février 2017.

ISSN : open and not open linked data

La stratégie d’utilisation et de publication de données liées par l’ISSN International Centre a été présentée par Clément Oury au congrès IFLA satellite “Data in libraries: the big picture”[1].
Après deux premières expérimentations de publication de données en linked data (participation au développement du modèle PRESSoo, ontologie pour des ressources continues, et réalisation du projet ROAD), l’ISSN International Centre désire promouvoir l’ISSN comme un des identifiants de référence dans le web des données tout en maintenant son modèle économique. Il poursuit ainsi deux politiques qui peuvent apparaitre contradictoires dans leur application :

  • publier en linked open data d’un ensemble de métadonnées “essentielles” accompagnant l’ISSN (liste qui reste à définir),
  • publier en linked data, mais non open, des données propres du registre des ISSN (données qui ont fait l’objet d’un travail manuel important depuis des années comme les relations entre les titres, les fusions, les éditions spéciales, les traductions… ) ainsi que certains liens avec les ressources externes.

Le futur portail de l’ISSN proposera des services et des outils différents aux utilisateurs gratuits vs payants et plusieurs modèles de données (light, full et expert) seront développés.

[1] Oury, C., 2016. ISSN: Transitioning to linked data, in: Data in Libraries: The Big Picture. Satellite Meeting of IFLA World Library and Information Congress. https://halshs.archives-ouvertes.fr/halshs-01358415/document [slides]

Voir aussi : l’appel d’offre lancé le 12/09/2016 par l’ISSN-IC pour la réalisation de son nouveau portail Web et de son extranet clients.

Scigraph.com : future plateforme linked data de Springer Nature

Scigraph est un projet de plateforme basée sur les technologies des données liées. Ces  technologies sont utilisées tout au long de la chaine de publication : “we had to create an architecture where RDF is core to the publishing workflow as much as XML is” (Michele Pasin [2]). Annoncée pour fin 2016, Scigraph permettra aux scientifiques de parcourir les graphes de connaissances construits à partir des informations contenues dans les articles et enrichies par des ressources externes (DBpedia, MeSH).

Linked Data Experiences at Springer Nature

Linked Data Experiences at Springer Nature. (M. Pasin ). 14/09/2016. Slide 49. Consulté à l’adresse http://www.slideshare.net/mpasin/linked-data-experiences-at-springer-nature

Les modèles (ontologie noyau et ontologies de domaines), les jeux de données (données bibliographiques des articles et références publiées par NPG depuis 1845), les liens vers des ressources externes, sont disponibles depuis 2012 sur le site nature.com ontologies [3][4] sous licence CC BY 4.0. Le sparql endpoint proposé concomitamment mais très peu utilisé a été supprimé en 2014. Toutes les ressources sont également disponibles sur GitHub Nature Pubishing Group

Vu sur Twitter

Pour en savoir plus :

  1. Présentation de M. Pasin à Semantics 2016 : Linked Data Experiences at Springer Nature
  2. Interview de Tony Hammond et Michele Pasin, architectes du portail nature.com, par Andreas Blumauer (30 mars 2016) : Insights into Nature’s Data Publishing Portal
  3. Présentation de T. Hammond et M. Pasin à LISC2015 : The nature.com ontologies portal (Slides)
  4. Communiqué de presse Nature Publishing Group releases linked data platform du 4/04/2012

Voir aussi :

Mettre nos données en réseau – un démonstrateur

Mettre nos données en réseau

Punktokomo, le Blog technique de l’ABES, vient de mettre en ligne une série de billets très pédagogiques présentant un démonstrateur illustrant la publication de données conformément aux principes et aux bonnes pratiques du web sémantique, dont l’intérêt et les limites actuelles sont clairement exprimés à travers des exemples concrets. Huit études de cas détaillées illustrant le travail effectué permettent de bien comprendre la méthodologie suivie selon les sources.

Les données proviennent des réseaux ABES, des éditeurs, des institutions culturelles ou dédiées à l’information scientifique et technique, de l’administration. Sont ainsi traitées (modélisées et converties en RDF pour le plupart) les documents provenant d’Istex, de HAL, du Sudoc, des référentiels de personnes (VIAF, ORCID, Idref, annuaire de chercheurs de l’Université Paris IV), des référentiels d’organismes (répertoire national des structures de recherche/RNSR, structures HAL), des référentiels sujet (Rameau, Library of Congress Subject Headings, les thésaurus MeSH et Nature, la classification du Journal of economic literature), des référentiels de bouquets (bouquet Dalloz) et des localisations (liste des bibliothèques).

Les alignements sont également publiés : alignements entre les auteurs de Nature et ORCID, entre les auteurs de Nature et l’International Standard Name Identifier (ISNI), entre les auteurs HAL et IdRef, entre les chercheurs de Paris 4 et IdRef, entre les auteurs de Persée et IdRef, entre les auteurs de Nature (puisqu’ils ne sont pas identifiés de façon unique dans le dump RDF de Nature), entre les auteurs Springer et IdRef, entre les documents Springer et RAMEAU, entre les domaines HAL et Dewey, entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef.

La modélisation, succinctement présentée, a fait appel, entre autres, aux modèles FRBR pour les documents, Vivo pour les auteurs/contributeurs. Les métadonnées de Nature Publication Group ont été récupérées directement en RDF avec le modèle spécifique à cet éditeur.

Ces données ont été agrégées dans un entrepôt RDF. L’accès aux données se fait via une requête SPARQL sur le point d’accès https://lod.abes.fr/sparql (de nombreux exemples de requête sont présentés dans les différents billets) ou par navigation depuis l’interface https://lod.abes.fr/fct.

Source : Punktokomo ; | Blog technique de l’ABES

Le Web de données dans les bibliothèques, archives et musées

Les bibliothèques, archives et musées ont consacré ces dernières années un effort considérable pour investir l’univers du Web des données.

La revue Library Technology Reports consacre un numéro spécial à ce sujet identifiant les tendances, les grands projets, les enjeux et les opportunités, les principaux vocabulaires, schémas, standards et technologies utilisés, les services développés.
Mitchell, E. T. (2016). Library Linked Data: Early Activity and Development. Library Technology Reports, 52(1), 37 p. https://journals.ala.org/ltr/issue/download/534/290

Dans le billet critique Linked data caution Jonathan Rochkind (Johns Hopkins University) interroge les motivations et les risques de ce mouvement, où des projets ambitieux et gourmands en ressources peuvent être guidés d’avantage par la technologie que par des objectifs clairement énoncés, au risque de ne répondre ni aux besoins des utilisateurs ni à la volonté de partager des données. Pour lui les principaux obstacles à l’interopérabilité des données et des services concernent avant tout la modélisation des domaines, la description des données et l’utilisation de modèles et référentiels communs (ainsi que la réticence à partager ses données, les modèles économiques des parties prenantes…). Il est important de bien évaluer les potentialités du Web de données dans son projet, se former aux technologies, rester centré sur les besoins des utilisateurs, ne pas sacrifier la qualité des données dans le processus, ne pas investir des ressources importantes dans le projet sans pouvoir en tirer des bénéfices à chaque étape, et, sans attendre que ses données soient publiées dans le Web des données, leur attribuer des identifiants et les partager sous licence libre.

Data Literature Interlinking service

dli_logo_bigLe portail Data Literature Interlinking Service est un service pilote développé conjointement par le groupe de travail Research Data Alliance Europe/WDS Publishing Data Interest Group, OpenAIRE,  et ICSU World Data System. Basé sur l’outil open source pour la construction d’infrastructures de données D-Net et le moteur de recherche Elasticsearch, il intègre, harmonise et interconnecte jeux de données et publications provenant de diverses sources*, générant un graphe de liens entre les jeux de données et entre les jeux de données et la littérature scientifique. Données et relations sont accessibles via une interface de recherche, via des APIs ou via le protocole OAI-PMH. Des statistiques sur les sources (nombre de jeux de données, de publications et de liens) sont également disponibles. L’enjeu est d’améliorer la visibilité, l’accessibilité et la réutilisation des données.

* Actuellement 19 sources de données :

  • 3TU Datacentrum
  • Australian National Data Service
  • Cambridge Crystallographic Data Centre
  • CrossRef
  • DataCite Resolver
  • Datasets in DataCite
  • Elsevier
  • ICPSR
  • IEDA
  • IEEE
  • OpenAIRE
  • OpenAIRE Resolver
  • PANGAEA
  • PubMed
  • PubMed Resolver
  • RCSB
  • Springer Nature
  • System Deduction
  • Thomson Reuters

Thésaurus PLOS : test d’appariement avec DBpedia

LD_POC_Fig1-690x320PLOS utilise pour classer ses contenus (subject areas) son propre thésaurus. Relier celui-ci à des ressources externes, en particulier à DBpedia qui est au cœur du nuage de données liées, lui apporterait une visibilité accrue. C’est dans cette optique que des tests ont été réalisés pour mettre en correspondance les termes du thésaurus avec les concepts de DBpedia.

Les tests ont porté sur la section “Psychology” du thésaurus (119 termes), jugée intéressante car mêlant des termes très techniques et des termes du langage courant. La mise en correspondance a été réalisée avec l’API de DBpedia Spotlight. Les URIs et les définitions de DBpedia ont été ensuite importées dans des champs spécifiques du thésaurus (géré avec MAIstro™).

Seuls 59,7% des termes ont pu être appariés sans ambiguïté avec un concept de DBpedia, ce qui n’est pas un résultat suffisant pour s’abstenir de toute intervention manuelle. Par contre DBpedia Spotlight est une aide à l’appariement puisque 72,3% des termes sont apparus parmi les 5 meilleurs résultats pour la mise en correspondance.

L’étape suivante serait de publier le thésaurus dans le Web des données liées, au format SKOS ou OWL, et d’y intégrer les liens vers DBpedia sous forme d’assertions owl:sameAs. D’autres outils comme SILK Linked Data Integration Framework pourraient alors être utilisés pour relier les concepts du thésaurus à des ressources externes.

Article source : PLOS and DBpedia – an experiment towards Linked Data

OpenAIRE en Linked Open Data

openaireLOD

OpenAire est un projet européen visant à diffuser en accès ouvert les publications et les données scientifiques  en libre accès des travaux  des différents projets européns. OpenAire diffuse plus de 13 millions de publications.

Last OpenAIRE portal content update (Dec. 1) = 13.294.130 publications from 688 data providers pic.twitter.com/n03zaK0bov— Pedro Príncipe (@pedroprincipe) 1 Décembre 2015.

OpenAIRE propose à travers le OpenAIRE LOD Services,  l’accès  ouvert à ses contenus publiés  en linked open data. L’objectif étant de  développer l’interopérabilité technique et d’ assurer une meilleure réutilisation et  intégration de différents contenus avec par exemple les données de la recherche ou encore les outils autour de l’écriture et de la communication  scientifique.

Le public ciblé, à la différence du  portail web,  comprend  les développeurs d’application tiers parties et de services mais aussi  des utilisateurs finaux avec les compétences techniques suffisantes pour exploiter les technologies du web sémantique.

Ce service propose trois manières d’accéder aux données :  en explorant les enregistrements de données d’OpenAIRE avec la possibilités de suivre les liens entre les entités reliées de télécharger l’ensemble des données Dump (attention 1.6 Go ) et d’interroger les données de manière interactive avec un SPARQL endpoint.

Les travaux effectués ou en projet portent sur

  • L’implémentation et la spécification du modèle de données OpenAIRE dans un vocabulaire de linked data (un schéma RDF) en s’appuyant sur les vocabulaires existants mais en spécifiant ce qui est propre à OpenAire,
  • L’alignement  des différentes entités de l’espace d’information OpenAire vers d’autres ressources RDF et leur automatisation,
  • La liaison de  OpenAIRE LOD avec d’autres linked open datatsets pour les mettre en valeur, permettre de meilleurs modes de recherche d’information etc..

Accès au site : http://lod.openaire.eu/

Une documentation technique est disponible sur le  LOD Wiki . Certains documents sont réservés aux membres du projet.

 

Publier en linked Open Data des productions scientifiques en utilisant l’ontologie VIVO

rhizomerL’information des institutions est souvent dispersées dans différents systèmes et bases de données utilisant différents vocabulaires et termes spécifiques. ce qui est un frein à la mise à disposition des données.

L’Université de Lleida (Universitat de Lleida)  souhaite publier ses produits de rercherche (articles, projets de recherche, brevets, thèses etc.)  en linked open data.

Ce document décrit l’alignement des bases de données existantes contenant les produits de la recherche, leurs impacts, les cherchers impliqués, leur organisation dans des groupes de recherche avec l’ontologie du projet VIVO.

L’ontology VIVO a été construite à partir de Bibliographic Ontology (BIBO),  appartenant au projet VIVO. Elle  possède une bonne couverture des entités requises et un ensemble de propriétés pour représenter tous les objets.

Toutes ces données sont publiés en linked data en utilisant un outil d’exploration de données sémantiques, Rhizomer pour faciler l’exploration et la visualisation des données. L’application facilite aussi la génération automatique de rapports pour l’évaluation à différents niveaux.

source : Garcia, Roberto; Virgili-Gomá, Jordi; Gil, Rosa (2015). Publishing Linked Open Data about University Scientific Outputs using the VIVO Ontology https://vivo.figshare.com/articles/Publishing_Linked_Open_Data_about_University_Scientific_Outputs_using_the_VIVO_Ontology/2002152. Attention plus d’information en téléchargeant le document

Rhizomer http://rhizomik.net/html/rhizomer/