Archives par étiquette : web de données

Linked open data : quelles compétences acquérir ?

Le web des données ouvertes et liées (Linked Open Data ou LOD) concerne un nombre croissant de projets et les professionnels de l’information souhaitant y participer doivent pouvoir mettre en œuvre  des connaissances et savoir-faire nouveaux. Les compétences prioritaires à acquérir sont identifiées par Jasmin Hügi et Nicolas Prongué dans un article[1] qui présente les résultats d’une analyse d’offres d’emploi et d’avis d’experts internationaux. Continuer la lecture

JocondeLab : utilisation du web sémantique pour un accès multilingue aux ressources culturelles françaises

JocondeLab, site issu d’un projet expérimental de tagging sémantique contributif appliqué à 300 000 œuvres de la base Joconde du ministère de la Culture et de la Communication, a été inauguré le 27 janvier. Exploitant les technologies du Web des données il relie les mots-clés de la base Joconde aux entrées de DBpedia en français. Ces liens permettent d’enrichir la recherche et la navigation sur le site avec les métadonnées extraites de Wikipedia, et en particulier les termes équivalents dans diverses langues, offrant ainsi un accès multilingue aux ressources sans qu’il ait été nécessaire de passer par une étape de traduction. Les entrées de Wikipedia sont également utilisées pour suggérer, par autocomplétion, les tags qu’un contributeur (anonyme) peut ajouter pour décrire une œuvre de son choix ou proposée par JocondeLab. JocondeLab est actuellement proposé en 14 langues. Outre la recherche, le site permet de naviguer à partir d’une carte du monde, d’une frise chronologique ou d’un nuage de mots-clés.

Le projet Joconde-Lab est dirigé par la délégation générale à la langue française et aux langues de France en collaboration avec le service des musées de France et le département des programmes numériques. La plate-forme est développée par l’Institut de Recherche et d’Innovation (IRI).

En savoir plus : http://jocondelab.iri-research.org/jocondelab/about/

Vu sur : ENSSIB

 

Hub de métadonnées à l’ABES

L’ABES a mis en ligne (15 juillet 2013) le rapport final de l’ Etude de faisabilité d’un hub de métadonnées ABES destiné offrir un service de « redistribution dans n’importe quel format des métadonnées enrichies récupérées dans n’importe quel format auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases« . Une des missions principales du hub est ainsi d’alimenter le web de données en données enrichies et de qualité.

Les données récupérées proviennent d’éditeurs (Springer : revues, articles, ebooks sous licence nationale, ebooks Dalloz, revues.org) et du SUDOC (thèses antérieures à 1985). Ces données, très hétérogènes, sont converties en RDF sans rien perdre de leur richesse d’origine.

Ce rapport montre très bien et simplement les atouts de RDF dans un tel projet. Il décrit succinctement et clairement le processus (acquisition, analyse des anomalies et de la complétude, normalisation, correction, enrichissement et redistribution des métadonnées), les problèmes rencontrés et les choix qui ont été faits en donnant des exemples concrets correspondant aux corpus traités.

Le W3C publie une liste du vocabulaire des données liées (linked data)

Le  W3C Government Linked Data Working Group a publié le 27 juin 2013, en anglais un glossaire des termes des données liées (linked data) :  Linked Data Glossary.

La liste contient 132 termes liés au développement d’applications  en linked data pour des entreprises ou de linked open data pour le web et  et constitue une référence pour tous les publics qui utilisent ou souhaitent utiliser les principes du linked data.

Le glossaire contient également  des références sur les normes ou recommandations  qui définissent chaque terme. Une traduction en français sera sans doute intéressante.

sources :

 

"Et 1 et 2 et 3.0!" : une journée FULBI sur le web de données

La FULBI (Fédération des Utilisateurs de Logiciels pour Bibliothèques, Documentation & Information) organisait le 13/01/2013 une journée sur le web de données  intitulée :  » « Et 1 et 2 et 3.0 ! ». Quelles opportunités pour nos missions ? Quelles incidences sur nos outils ? »

Le programme et les  présentations, malheureusement seulement partiellement disponibles sont à l’adresse : http://www.fulbi.fr/?q=content/journee-fulbi-du-17-janvier-2013

En matière d’introduction : la présentation très illustrée, didactique et pédagogique d’Emmanuelle Bermès, qui rappelle les définitions et principes du web sémantique, et celle de Romain Wenz qui donne des exemples d’application à la BNF (dans data.bnf.fr)

Comment interroger le Sudoc en SPARQL avec Sindice

Ce billet du blog Punktomo explique ce l’on peut faire avec le Sudoc – catalogue bibliographique des bibliothèques universitaires –  en RDF et comment on peut interroger celui-ci en utilisant le langage SPARQL.

L’outil utilisé pour interroger le Sudoc est Sindice. Ce moteur sémantique indexe différentes sources contenant les formats du web sémantique (microformats, RDF etc) . Il possède une interface d’interrogation SPARQL : http://sparql.sindice.com/

Source : Blog Punktomo  un-serveur-sparql-pour-le-sudoc http://punktokomo.abes.fr/2012/11/23/un-serveur-sparql-pour-le-sudoc/. 23 novembre 2012.

Dossier sur RDA : Resource Description and Access

Pour les passionnés, un dossier en français consacré à la nouvelle norme de catalogage « Ressources : Description et Accès » (RDA) est disponible sur « Espace B », le Blogue des bibliothèques de la ville de Montréal. Il comporte 4 parties :

  • Qu’est-ce que les RDA ? retrace l’historique des règles de catalogage depuis l’apparition des AACR (Anglo-American Cataloguing Rules) en 1967 jusqu’au RDA destiné à les remplacer. Nouvelle approche du catalogage adaptée à l’environnement actuel des bibliothèques dominé par le web, RDA s’appuie sur deux modèles d’information bibliographique : FRBR (Functional Requirements for Bibliographic Records / Spécifications fonctionnelles des notices bibliographiques) et FRAD (Functional Requirements for Authority Data / Fonctionnalités requises des données d’autorité), et utilise le formalisme informatique entités-attributs-relations.
  • Comment fonctionnent les RDA ? Les FRBR identifient 3 groupes d’entités, dotées d’attributs et reliées par des relations, qui concernent :
    – le document : Œuvre, Expression, Manifestation, Item ou Document,
    – les autorités : personnes, collectivités,
    – le sujet : concept, objets, lieux et événements,
    et permettent une vision d’ensemble d’une œuvre et les relations qui se tissent entre cette œuvre et ses manifestations concrètes.
    Étant une norme de contenu et non d’encodage, RDA permet de s’ouvrir à plusieurs formats d’encodage ou normes de métadonnées (MARC, Dublin Core, MODS, ONIX etc.) et d’intégrer les notices bibliographiques des bibliothèques à celles produites par d’autres communautés. RDA offre ainsi l’opportunité d’intégrer les catalogues sur le web sémantique.
  • RDA et la FRBRisation des catalogues : comment l’OCLC, la Library of Congress ou les bibliothèques de l’Université catholique de Louvain s’emparent des possibilités offertes par les FRBR. Plusieurs grandes bibliothèques (Library of Congress, bibliothèques nationales du Canada, de Grande-Bretagne, d’Allemagne et d’Australie, Bibliothèques et Archives nationales du Québec) ont annoncé qu’elles allaient implanter et utiliser RDA à partir de  2013.
  • Les catalogueurs et les RDA : l’impact pour les catalogueurs sera sans doute important car il devront non seulement adopter une nouvelle terminologie mais modifier totalement leur démarche intellectuelle tant diffèrent les structures des codes AACR et RDA.

vu sur EchosDoc

Voir aussi

Rapport final du W3C : « Bibliothèques et web de données »

La traduction en français du Rapport final du groupe d’incubation W3C « Bibliothèques et web de données«  est disponible. Le groupe dont la mission était de « contribuer à améliorer de façon globale l’interopérabilité entre les données de bibliothèque sur le web en rassemblant des professionnels travaillant sur le Web sémantique – notamment sur le web de données –  » aboutit aux recommandations suivantes :

  • Les dirigeants de bibliothèque doivent identifier des jeux de données susceptibles d’être exposés dans un premier temps sur le web de données et encourager le débat sur l’ouverture des données et les aspects juridiques afférents.
  • Les organismes responsables des normes bibliographiques doivent renforcer la participation des bibliothèques au processus de standardisation du web sémantique, développer pour ces dernières des normes compatibles avec le web de données et diffuser des bonnes pratiques en matière des patrons de conception pour les données liées de bibliothèque.
  • Les concepteurs de systèmes et de données doivent rendre plus performants les services aux utilisateurs en s’appuyant sur les possibilités du web de données, créer des URI pour les items appartenant aux jeux de données des bibliothèques, mettre en œuvre des politiques pour la gestion des vocabulaires RDF et leurs URI et exprimer les données de bibliothèque avec la réutilisation ou la mise en correspondance des vocabulaires existants dans le web de données.
  • Les bibliothécaires et les archivistes doivent veiller à la conservation des éléments de description et des vocabulaires d’autorité du web de données et appliquer leur savoir-faire – conserver et gérer sur le long terme – au web de données.

On trouve en annexe un inventaire des ressources existantes :

  • jeux de données décrivant les ressources de la bibliothèque telles que le British National Bibliography, le SUDOC, CrossRef et Europeana ;
  • vocabulaires d’autorité tels que la Liste des vedettes matières de la Bibliothèque du Congrès, AGROVOC, le fichier d’autorité international virtuel (VIAF), la Classification décimale Dewey et Geonames ;
  • éléments de description de métadonnées tels que les termes de métadonnées DCMI, les éléments de RDA (Resource Description and Access), Simple Knowledge Organization System (SKOS) et Friend of a Friend Vocabulary (FOAF).

ainsi qu’un aperçu des technologies qui permettent la production et la consommation de données liées. L’importance de l’alignement pour l’interopérabilité des ressources y est également développé.

 

Google réalise un pas supplémentaire vers le Web sémantique avec Knowledge Graph

Google lance une nouvelle fonction de recherche sémantique : Knowledge Graph. cette fonction s’appuie sur une gigantesque base de données contenant à ce jour environ 500 millions d’objets, 3,5 milliards de faits et des liens entre ces objets. Déployée pour l’instant dans la version en anglais du site, la fonction Knowledge Graph se matérialise par l’affichage d’une colonne supplémentaire à droite de l’écran lors d’une recherche (encadré en rose dans la figure ci-dessous).


Bien que Knowledge Graph soit encore loin d’être exhaustif,  c’est une très bonne nouvelle dans la mesure où il permettra sans doute de vulgariser les apports du Web sémantique:

  • des recherches plus précises, capables de dépasser les problèmes d’homonymie ;
  • des recherches plus efficaces ;
  • plus de sérendipité (plus de chance de découvrir par « hasard » des résultats pertinents que l’on ne recherchait pas au départ).

Découvrez l’annonce de Knowledge Graph ici, et pour plus d’informations, cliquez .

Tagging sémantique : HdA-BO et HdA-Lab

Dans le cadre d’un projet de recherche et développement[1], les potentialités du tagging sémantique sont explorées sur un corpus d’Histoire des Arts (HdA) à travers deux outils :

  • un module de tagging  (HdA-BO – pour Back Office) permettant aux contributeurs d’utiliser, pour décrire les ressources, des titres d’articles de Wikipedia. Ces tags constitués des entrées de Wikipédia sont dotés de métadonnées, dont les URIs de DBpedia.org correspondants.
  • une interface permettant aux utilisateurs de rechercher et de naviguer dans la version sémantisée du corpus (HdA-Lab – pour Laboratoire). La première version accessible en ligne met l’accent sur la recherche par facettes. HdA-Lab proposera dans les mois qui viennent de nouvelles fonctionnalités : recherche par liste de complétion augmentée, accès multilingue, carte heuristique, index d’auteurs etc.

Ce que permet ce tagging sémantique :

  • la levée d’ambigüités entre tags,
  • l’interopérabilité du corpus avec tout autre utilisant l’URL Wikipedia pour identifier les mots-clés,
  • l’enrichissement automatique de l’indexation par extraction de métadonnées contenues dans les articles de Wikipédia,
  • des fonctionnalités de recherche enrichies car utilisant les relations logiques sous-jacentes aux contenus de Wikipédia (par exemple les relations d’inclusion entre villes, départements et régions de France).

Vu dans C/blog Culture & numérique

 


[1] Ce projet implique l’Institut de Recherche et d’Innovation (IRI) et le Département des Programmes Numériques (DPN) du Ministère de la Culture et de la Communication et utilise les données du site Histoiredesarts.culture.fr