Archives par étiquette : Open Refine

Nouvelle version de Open Refine 2.7

Open Refine  est un outil open source, multiplateformes, qui s’installe sur son ordinateur et qui  permet le traitement et le nettoyage des données. La version  2.7 de Open Refine  est sortie le 17 juin 2017. Les principales nouveautés (voir realeases) sont  :

  • La reconciliation des données avec Wikidata, maintenu par la Wikimedia Foundation  qui remplace l’ancien service de reconciliation avec Freebase.
  • un bouton d’export de clusters dans les fonctionnalités de clustering
  • La traduction en japonais
  • Des opérations logiques multiples
  •  une fonction « Transform All » qui permet d’appliquer les opérations sur les autres colonnes
  • La résolution de bug

Un manuel d’utilisation collaboratif, en français, est disponible sur le wiki de l’IST INRA “Traitements documentaires – Outils et savoir-faire” . Détaillé et illustré de nombreux exemples, il s’étoffera et évoluera avec les astuces et cas d’usages que nous partagerons.

Sources

Exemple d’utilisation des outils du web dans un processus collaboratif de production de métadonnées

L’université de North Texas (UNT) et la Société d’Histoire de l’Oklahoma (OHS) collaborent dans un projet de numérisation et de publication de plus d’un million de photographies d’archives historiques (disponibles sur le portail The Gateway to Oklahoma History). Pour ce projet, ils sont mis au point un processus dans lequel ils utilisent les outils du web Open Refine et Google Fusion Tables pour vérifier et nettoyer les métadonnées produites au moment de la numérisation. Ce processus permet aux 2 institutions de se partager les tâches et de travailler simultanément sur les métadonnées, chacun s’attachant à un type de données et à un aspect différent du nettoyage (lieux, images, dates…etc.).
Le processus comporte 5 étapes : préparation de l’image pour la numérisation, saisie de l’image et génération des métadonnées (groupées par lots de 40 000 images/métadonnées au format csv), nettoyage des métadonnées à l’aide d’Open Refine et Google Fusion Tables, mapping des métadonnées et conversion au format Dublin Core qualifié en XML (outil m2m développé localement), dernières modifications et contrôle de la qualité des métadonnées obtenues (via le portail).

Référence :
Mark Phillips, Hannah Tarver, and Stacy Frakes (2013). Implementing a Collaborative Workflow for Metadata Analysis, Quality Improvement, and Mapping. code{4}lib Journal, 23, article 9199. http://journal.code4lib.org/articles/9199