Les données liées à la Bibliothèque Nationale des Pays Bas

Theo van Veen et Sieta Neuerburg nous donnent dans le billet « Linked Open Data at the National library of the Netherlands » un aperçu des réalisations et projets en cours de La Bibliothèque Nationale des Pays Bas (Koninklijke Bibliotheek KB) dans le domaine des linked data.

Grâce par exemple à l’enrichissement des données géographiques présentes dans les articles de journaux (ajout des latitudes et longitudes), elle propose à l’utilisateur de consulter depuis son mobile les événements historiques qui ont eu lieu là où il se trouve. D’autres liens sont faits entre les collections de revues de la KB et les enregistrements TV et radio de l’Institut Néerlandais de l’image et du son.

Tout en continuant à travailler sur les liens entre métadonnées et ressources externes, le département de recherche de la KB cherche à exploiter les possibilités de liens depuis le texte intégral des collections via les entités nommées. Il a dans ce but développé un annotateur (Named Entity Recognition Tool for Europeana Newspapers) pour identifier et extraire ces entités et les relier à des ressources. Cette action participe du projet Europeana Newspapers  (voir aussi, en français : Europeana Newspapers : numériser l’ancien pour mieux informer).
Le département de recherche de la KB a ainsi créé une base pour collecter les informations sur les entités nommées et leurs liens vers des sources externes, comme DBpedia, Freebase  ou VIAF. Il met au point un outil qui permettra à des utilisateurs de valider ou rejeter les lien proposés par l’annotateur, ou de créer de nouveaux liens.

Parmi les problèmes rencontrés figure la couverture inégale des ressources. Certaines entités historiques, bien qu’importantes aux Pays Bas, ne font l’objet d’aucune description dans DBpedia.
Par ailleurs une ressource n’a pas un identifiant unique et les bases de référence comme DBpedia, Freebase et Geonames utilisent chacune leurs propres identifiants menant chacun à une page différente de description de la ressource.
En dehors des obstacles à l’ouverture des données dus à  la propriété intellectuelle,  les difficultés rencontrées concernent également la reconnaissance de texte qui peut être compliquée par la qualité de l’OCR mais aussi par l’évolution de la langue et la détection des ambiguïtés. Une intervention manuelle, qui peut faire appel au crowdsourcing, reste indispensable pour vérifier, valider, corriger les liens réalisés automatiquement.

La puissance des linked data pour découvrir et enrichir des données en fait une voix incontournable pour les bibliothèques, leur permettant d’exploiter pleinement leurs collections et de valoriser l’information et la connaissance qu’elles contiennent, par delà les barrières organisationnelles, nationales ou de langue.

 

A (re)lire sur le sujet des linked data et des bibliothèques :

et la rubrique Web de données, web sémantique sur le site de la BNF

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.