Archives

Exemple d’utilisation des outils du web dans un processus collaboratif de production de métadonnées

L’université de North Texas (UNT) et la Société d’Histoire de l’Oklahoma (OHS) collaborent dans un projet de numérisation et de publication de plus d’un million de photographies d’archives historiques (disponibles sur le portail The Gateway to Oklahoma History). Pour ce projet, ils sont mis au point un processus dans lequel ils utilisent les outils du web Open Refine et Google Fusion Tables pour vérifier et nettoyer les métadonnées produites au moment de la numérisation. Ce processus permet aux 2 institutions de se partager les tâches et de travailler simultanément sur les métadonnées, chacun s’attachant à un type de données et à un aspect différent du nettoyage (lieux, images, dates…etc.).
Le processus comporte 5 étapes : préparation de l’image pour la numérisation, saisie de l’image et génération des métadonnées (groupées par lots de 40 000 images/métadonnées au format csv), nettoyage des métadonnées à l’aide d’Open Refine et Google Fusion Tables, mapping des métadonnées et conversion au format Dublin Core qualifié en XML (outil m2m développé localement), dernières modifications et contrôle de la qualité des métadonnées obtenues (via le portail).

Référence :
Mark Phillips, Hannah Tarver, and Stacy Frakes (2013). Implementing a Collaborative Workflow for Metadata Analysis, Quality Improvement, and Mapping. code{4}lib Journal, 23, article 9199. http://journal.code4lib.org/articles/9199

 

Le projet FreeYourMetadata… avec Google Refine


Signalé par la page Facebook de la communauté AIMS de la FAO, FreeyourMetadata.org est un projet  du  Multimedia Lab (ELIS — Ghent University / iMinds) et du MaSTIC (Université Libre de Bruxelles).
Ce projet montre des exemples, avec des jeux de données disponibles du Power Museum (Sidney, Australia) et avec l’outil Google Refine comment effectuer trois composantes essentielles du traitement des données.

  1. Le nettoyage : harmoniser et corriger les données
  2. La réconciliation : lier les données avec des vocabulaires existants
  3. La publication des données  : rendre les données utilisables d’une manière durable

Pour chacune des trois actions, une procédure par étape (et des vidéos) explique comment utiliser Google Refine. Un jeu de données résultant de chaque étape est disponible.
Pour l’action 2, l’extension de Google Refine  DERI RDF Extension for Google Refine doit être installée. Les données initiales sont ici connectées automatiquement au vocabulaire contrôlé  Library of Congress Subject Headings (LCSH). Le site explique aussi  comment extraire des entités nommées(*) à partir  de données non structurées  en utilisant une extension développée par le projet OpenRefine extension.
Enfin, nous attendons avec impatience l’action 3 :  Sustainable  access.
Les responsables de ce projet donnent aussi des conférences sur ce sujet.. voir le site.
A voir absolument la vidéo d’introduction (en anglais) pour vous convaincre de l’intérêt de promouvoir les Linked data.
(*) La reconnaissance d’entité nommées (extract names entities) consiste à rechercher des objets textuels (c’est-à-dire un mot, ou  un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d’organisations ou d’entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. (source wikipédia).