Archives par étiquette : linked data

Mise à jour de Agrovoc

Clipboard

Source: New AGROVOC release is out!

Le vocabulaire  international en agriculture de la FAO, AGROVOC a été mis à jour le 23 juillet  2014. Ce billet fait suite et réactualise le billet de du 12 septembre 2012 sur Agrovoc : Le thesaurus Agrovoc en linked open data.

Il est disponible aux adresses suivantes :

Il peut être également consulté en navigation sur le site web :  http://aims.fao.org/agrovoc/

Cette version apporte des nouveautés : une version ukrainienne (800 termes), la révision du Turc, et une version étendue de la couverture linguistique : allemand (plus de 10000 termes), anglais, espagnol et Italien avec plus de 1000 nouveaux termes chacun. Il n’est pas fait mention d’amélioration des contenus en français. La couverture des insectes comestibles (« edible insects ») en cinq langues a été ajoutée.

Agrovoc est maintenant aligné en linked open Data (LOD) avec le EARTh thesaurus, un thesaurus de référence sur l’Environnement.

Sur un aspect plus technique on peut noter :

  • Une amélioration du RDF dataset par suppression des triplets qui étaient le plus souvent redondants ;
  • Suppression des xLabels sans forme littérale ;
  • Suppression des labels altLabel qui répétaient le prefLabel ;
  • Création de nouveaux xLabels pour les chaines qui n’en avaient pas  (ceci change particulièrement la manière d’épeler les variantes)

Le vocabulaire de l’ontologie à également changé  (agrontology vocabulary) :

  • La propriété “hasRelatedType” est remplacée par la propriété standard skos:related ;
  • La propriété « hasSpellingVariant » est remplacée par la propriété « spellingVariant » (relation symétrique)

L’évolution d’Agrovoc et sa distribution en LOD  sont très importants pour le domaine de la gestion des connaissances pour les sciences de l’agronomie et de l’environnement. L’alignement d’Agrovoc avec d’autres vocabulaires  (voir Le thesaurus Agrovoc en linked open data) permet d’enrichir des contenus de vocabulaires plus spécifiques.

Voir aussi le billet : Le plus gros thésaurus chinois dans le domaine de l’agriculture publié en linked Open Data

Linked Data Platform 1.0 – W3C Working draft

Le W3C a mis en ligne  un document de travail pour recueillir des commentaires sur un  ensemble de bonne pratiques pour construire des plateformes de linked data.

L’architecture proposée  s’appuie sur l’utilisation de  HTTP pour accéder, mettre à jour, créer et supprimer des ressources qui décrivent leurs états suivant le modèle de données RDF.

Ce document décrit un type de ressource spécifique aux plateformes en linked data : un « container » (une université, une collection…)  dans lequel les ressources peuvent être ajoutées. Il est très technique mais constitue une référence importante pour ceux qui construisent des plateformes de linked data.

Sample separation of Linked Data Platform Resource

fig. 1 – Extraits du document du W3C.  LDPRs Linked Data Platform resources : exemples

Sources :

Linked open data : quelles compétences acquérir ?

Le web des données ouvertes et liées (Linked Open Data ou LOD) concerne un nombre croissant de projets et les professionnels de l’information souhaitant y participer doivent pouvoir mettre en œuvre  des connaissances et savoir-faire nouveaux. Les compétences prioritaires à acquérir sont identifiées par Jasmin Hügi et Nicolas Prongué dans un article[1] qui présente les résultats d’une analyse d’offres d’emploi et d’avis d’experts internationaux. Continuer la lecture

Bartoc, LOV et VEST : des répertoires d’ontologies, de thesaurus et de vocabulaires

http://www.bartoc.org/

Le registre de l’Université de Bâle comprend 600 ontologies/thesauri/vocabulaires en 65 langues : http://Bartoc.org . Les ressources sont classées selon la classification décimale de Dewey (DCC) et le thesaurus Eurovoc (CEE). L’onglet « Ressources » répertorie des sites contenant plusieurs vocabulaires.

http://lov.okfn.org/dataset/lov/

LOV recense des vocabulaires pour des applications en linked open data, RDFS ou des ontologies en OWL.

http://aims.fao.org/vest-registry/browse-by-vocabularies

VEST Registry est un répertoire de la FAO sur des vocabulaires principalement à utiliser en indexation. Il contient plus de 500 vocabulaires.

Le plus gros thésaurus chinois dans le domaine de l'agriculture publié en linked Open Data

Le Chinese Agricultural Thesaurus (CAT), avec plus de 63 000 concepts (32 000 pour Agrovoc) et 130 000 relations sémantiques, est le plus gros thésaurus chinois dans le domaine de l’agriculture. Maintenu par l’Agricultural Information Institute (AII) du Chinese Academy of Agricultural Sciences (CAAS), il vient d’être publié sous la forme de données ouvertes et liées (linked Open Data ou LOD). Les concepts du CAT ont été mis en correspondance[1] avec ceux d’Agrovoc[2], d’Eurovoc[3], du NALT[4] et du LCSH[5], assurant une interopérabilité qui pourra être utilisée pour la recherche et la découverte de connaissances à travers les différentes langues.

[1] La mise en correspondance des concepts de CAT avec ceux d’Agrovoc a été réalisée en collaboration avec la FAO en utilisant les propriétés skos:exactMatch, broadMatch et narrowMatch. Les autres mappings ont été réalisés de façon automatique à partir du nom (rdfs:label) des concepts.
[2] Agrovoc : thésaurus de la FAO
[3] Eurovoc : thésaurus multilingue de l’Union Européenne
[4] NALT : thesaurus agricole de la National Agricultural Library
[5] LCSH : vedettes-matière de la Library of Congress

Vu sur AIM’s blog

Le W3C publie une liste du vocabulaire des données liées (linked data)

Le  W3C Government Linked Data Working Group a publié le 27 juin 2013, en anglais un glossaire des termes des données liées (linked data) :  Linked Data Glossary.

La liste contient 132 termes liés au développement d’applications  en linked data pour des entreprises ou de linked open data pour le web et  et constitue une référence pour tous les publics qui utilisent ou souhaitent utiliser les principes du linked data.

Le glossaire contient également  des références sur les normes ou recommandations  qui définissent chaque terme. Une traduction en français sera sans doute intéressante.

sources :

 

Le projet FreeYourMetadata… avec Google Refine


Signalé par la page Facebook de la communauté AIMS de la FAO, FreeyourMetadata.org est un projet  du  Multimedia Lab (ELIS — Ghent University / iMinds) et du MaSTIC (Université Libre de Bruxelles).
Ce projet montre des exemples, avec des jeux de données disponibles du Power Museum (Sidney, Australia) et avec l’outil Google Refine comment effectuer trois composantes essentielles du traitement des données.

  1. Le nettoyage : harmoniser et corriger les données
  2. La réconciliation : lier les données avec des vocabulaires existants
  3. La publication des données  : rendre les données utilisables d’une manière durable

Pour chacune des trois actions, une procédure par étape (et des vidéos) explique comment utiliser Google Refine. Un jeu de données résultant de chaque étape est disponible.
Pour l’action 2, l’extension de Google Refine  DERI RDF Extension for Google Refine doit être installée. Les données initiales sont ici connectées automatiquement au vocabulaire contrôlé  Library of Congress Subject Headings (LCSH). Le site explique aussi  comment extraire des entités nommées(*) à partir  de données non structurées  en utilisant une extension développée par le projet OpenRefine extension.
Enfin, nous attendons avec impatience l’action 3 :  Sustainable  access.
Les responsables de ce projet donnent aussi des conférences sur ce sujet.. voir le site.
A voir absolument la vidéo d’introduction (en anglais) pour vous convaincre de l’intérêt de promouvoir les Linked data.
(*) La reconnaissance d’entité nommées (extract names entities) consiste à rechercher des objets textuels (c’est-à-dire un mot, ou  un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d’organisations ou d’entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. (source wikipédia).

Site d’information inter-instituts sur les données de la recherche

Le site d’information sur les données de la recherche, créé à l’initiative du ministère de l’Enseignement supérieur et de la Recherche, est  une plateforme d’information et de veille sur les données de la recherche. Le CNRS, L’inist, L’inra et l’Inserm et l’IRD en sont partenaires.

Le site propose différentes rubriques : Actualités, Normes formats et protocoles, Politiques et textes de références, Projets et Initiatives ainsi qu’une webographie par type de documents.
Selon la ligne éditoriale, le site  a comme objectifs de :

  • développer les connaissances sur les données de la recherche ;
  • sensibiliser à l’importance qu’elles revêtent ;
  • favoriser la réflexion autour des problématiques qui y sont liées.

Le site s’adresse aux professionnels de l’information scientifique et technique et aux différentes communautés scientifiques qui bénéficient ainsi d’un espace commun d’information sur les problématiques liées aux données.

Il a vocation à être alimenté par un réseau de veilleurs représentatifs des différentes disciplines scientifiques et des métiers, et appartenant à différents établissements de recherche.

http://www.donneesdelarecherche.fr/

Wiki sémantique et web de données

LinkedWiki est une extension pour Mediawiki qui permet, via des requêtes Sparql, d’intégrer les wikis sémantiques au Web des données. Cette extension a été développée par l’entreprise BorderCloud crée par Karima Rafes, que j’ai découverte grâce à son intervention sur le web sémantique dans l’émission de France Culture, Place de la toile (02/01/11),  à (ré-)écouter avec intérêt !
12 vidéos en français présentent cette extension en détail et permettent de voir les différentes étapes du processus. Pour les personnes vraiment pressées, mais non totalement novices, l’intro de la 12ème vidéo en est un bon résumé.
A voir sur le site BorderCloud ou sur DailyMotion