Archives par étiquette : métadonnées

Une feuille de route pour les citations des données dans les entrepôts

Les entrepôts de données jouent un rôle central dans la citation des données car ils fournissent des services de gestion et de découverte des données, un accès pérennes aux données, des identifiants uniques et les métadonnées nécessaires. Pour la citation des données, les entrepôts doivent travailler avec différents acteurs comme les éditeurs, les bases de données bibliographiques, les chercheurs.

Un article publié en preprint dans BioRxiv présente une feuille de route pour que l’implémentation de la citation de données par les entrepôts de données, en particulier dans le domaine des sciences de la vie, soit en accord avec la “Joint Declaration of Data Citation Principles“. Ce travail fait partie du projet DCIP Data Citation Implementation Pilot de Force11.

Cet article synthétise et harmonise les principales recommandations existantes et présente 11 recommandations regroupées selon trois niveaux de priorité de mise en place :

  1. Étapes requises pour suivre “the Joint Declaration of Data Citation Principles”,
  2. Étapes recommandées pour faciliter le workflow de publication article/données
  3. Étapes optionnelles pour renforcer la citation de données dans les entrepôts

Ce document insiste sur l’importance pour l’entrepôt de fournir des métadonnées, que ce soit pour la citation ou pour la découverte des jeux de données, dans les formats les plus utilisés : Dublin Core, Schema.org, DataCite et DATS. Il insiste également sur l’importance de la “landing page” à laquelle doit mener l’identifiant persistant attribué au jeu de données, et qui doit fournir les informations sur les données (métadonnées, accès, licence d’utilisation) dans des formats lisibles par les humains et par les machines en utilisant les balises de Schema.org au format JSON-LD (point 7), mais aussi dans des formats de meta-balises en HTML comme PRISM ou encore Dublin Core HTML (point 8) .

La négociation de contenu  entre les différents services (les entrepôts et les services d’enregistrement d’identifiants comme DataCite ou identifier.org) est également mentionnée : les identifiants pérennes (Persistent Identifier ou PID) doivent pointer vers la landing page et des formats sont également préconisés

Les pratiques de la citation de données peuvent être implémentées dans de nouveaux services comme BioCADDIE, un service de recherche de données en biomédecine.

source :

A Data Citation Roadmap for Scholarly Data Repositories [Preprint]. Martin Fenner, Mercè Crosas, Jeffrey Grethe, David Kennedy, Henning Hermjakob, Philippe Rocca-Serra, Robin Berjon, Sebastian Karcher, Maryann Martone, TimothyClark. 

Voir aussi sur le site Inra Gestion et partage des données scientifiques : citer des données

Exemple d’utilisation des outils du web dans un processus collaboratif de production de métadonnées

L’université de North Texas (UNT) et la Société d’Histoire de l’Oklahoma (OHS) collaborent dans un projet de numérisation et de publication de plus d’un million de photographies d’archives historiques (disponibles sur le portail The Gateway to Oklahoma History). Pour ce projet, ils sont mis au point un processus dans lequel ils utilisent les outils du web Open Refine et Google Fusion Tables pour vérifier et nettoyer les métadonnées produites au moment de la numérisation. Ce processus permet aux 2 institutions de se partager les tâches et de travailler simultanément sur les métadonnées, chacun s’attachant à un type de données et à un aspect différent du nettoyage (lieux, images, dates…etc.).
Le processus comporte 5 étapes : préparation de l’image pour la numérisation, saisie de l’image et génération des métadonnées (groupées par lots de 40 000 images/métadonnées au format csv), nettoyage des métadonnées à l’aide d’Open Refine et Google Fusion Tables, mapping des métadonnées et conversion au format Dublin Core qualifié en XML (outil m2m développé localement), dernières modifications et contrôle de la qualité des métadonnées obtenues (via le portail).

Référence :
Mark Phillips, Hannah Tarver, and Stacy Frakes (2013). Implementing a Collaborative Workflow for Metadata Analysis, Quality Improvement, and Mapping. code{4}lib Journal, 23, article 9199. http://journal.code4lib.org/articles/9199

 

Protocole d’accord signé entre re3data et OpenAIRE

OpenAIRE et re3data[1] ont signé en octobre 2013 un protocole d’accord qui prévoit l’échange de métadonnées concernant les entrepôts de données de la recherche entre re3data.org et OpenAIREplus[2]. Ce dernier intègrera les entrepôts indexés par re3data.org et fournira en retour des informations concernant les statistiques sur l’utilisation des jeux de données et les liens entre les jeux de données et les publications. Les échanges porteront également sur les bonnes pratiques et les normes et directives à appliquer dans le cadre de l’archivage des données de recherche.

[1] Re3data.org (Registry of Research Data Repositories) est un répertoire d’entrepôts de données de recherche, d’origine allemande, financé par la German Research Foundation DFG. Il se présente comme un registre mondial d’entrepôts de toutes disciplines. re3data sélectionne les entrepôts qu’il référence et utilise pour les décrire des métadonnées provenant d’un  vocabulaire qu’il a élaboré. En septembre 2013, 397 entrepôts étaient décrits parmi 611 référencés.

[2] Lancé le 6/12/2011 pour une durée de 2 ans 1/2, OpenAIREplus prolonge le projet OpenAIRE (Open Access Infrastructure for Research in Europe), projet européen financé par la Commission Européenne (CE) dans le cadre du 7ème programme cadre, dont le but est d’accompagner l’obligation, décidée par la CE et le Conseil Européen de la Recherche (ERC), de déposer en open access les publications et résultats des recherches financées par la CE. OpenAIREplus utilise l’infrastructure technique du projet OpenAIRE et étend son action aux publications européennes (et non plus seulement financées par l’UE). Parmi ses principaux objectifs figurent la connexion entre publications et données de recherches de toutes disciplines, la possibilité pour les utilisateurs de créer des publications enrichies et l’interopérabilité avec les infrastructures existantes majeures comme DataCite, Mendeley, ORCID, EUDAT, REIsearch. OpenAIREplus utilise les entrepôts existants et s’est par ailleurs associé au CERN pour lancer en mai 2013 le portail Zenodo.

 

Hub de métadonnées à l’ABES

L’ABES a mis en ligne (15 juillet 2013) le rapport final de l’ Etude de faisabilité d’un hub de métadonnées ABES destiné offrir un service de “redistribution dans n’importe quel format des métadonnées enrichies récupérées dans n’importe quel format auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases“. Une des missions principales du hub est ainsi d’alimenter le web de données en données enrichies et de qualité.

Les données récupérées proviennent d’éditeurs (Springer : revues, articles, ebooks sous licence nationale, ebooks Dalloz, revues.org) et du SUDOC (thèses antérieures à 1985). Ces données, très hétérogènes, sont converties en RDF sans rien perdre de leur richesse d’origine.

Ce rapport montre très bien et simplement les atouts de RDF dans un tel projet. Il décrit succinctement et clairement le processus (acquisition, analyse des anomalies et de la complétude, normalisation, correction, enrichissement et redistribution des métadonnées), les problèmes rencontrés et les choix qui ont été faits en donnant des exemples concrets correspondant aux corpus traités.

Métadonnées et indicateurs pour le libre accès : projet de norme de la NISO

La National Information Standards Organization (NISO) a approuvé un nouveau projet de développement de métadonnées bibliographiques normalisées et d’indicateurs visuels pour décrire l’accessibilité des articles de revues du point du vue du libre accès. Cette initiative devrait permettre de clarifier des offres qui, bien que présentées par les éditeurs sous la banière du libre accès, peuvent être très différentes. Tous les acteurs de la chaine éditoriale (Auteurs, éditeurs, agrégateurs et lecteurs) devraient en tirer bénéfice.
Voir le communiqué de presse de la NISO

Vu sur LaLIST

Pourquoi les métadonnées des PDF éditeurs sont elles si pauvres ?

C’est la traduction du titre d’un billet sur le blog de Ross Mounce.

Les métadonnées embarquées (embedded metadata) incluses dans les documents sont un eldorado pour les systèmes ou utilisateurs  ayant à gérer ce type de données. On peut les récupérer automatiquement avec des outils comme Endnote, Medeley ou Zotero pour les utilisateurs finaux ou par d’autres applications pour les dépôts dans les archives ouvertes les différents catalogues bibliographiques, les moteurs de recherche, les réseaux sociaux….

Récupérer les métadonnées produites dès la création du document  permet de disposer de données fiables et de bonne qualité si le document est une publication scientifique et que l’éditeur  scientifique prend soin de produire ces données correctement. Le format des données embarquées dans le PDF est  XMP (Adobe’s Extensible Metadata Platform) qui s’appuie sur le Dublin Core et qui est devenue une norme ISO en 2012.

L’auteur propose une analyse des métadonnées de quelques publications.

L’échantillon a porté sur des articles de 21 éditeurs, publiés pour la plupart en 2011,  dont : AAAS (Science), Wiley-Blackwell,  BMJ, Cambridge Journals Online, CSIRO, Elsevier,  Hindawi, National Academy of Sciences (PNAS), NPG, NRC Research Press, PLOS, Royal Society, SAGE, Springer-Verlag, Taylor & Francis …

11 métadonnées différentes ont été analysées dont :  Creator, Title, Subject, Author, Pages, Keywords.

Les résultats ne sont pas très satisfaisants. Sur 70 articles en pdf analysés, seulement 8 possèdent des métadonnées complètes sur la publication et 50 %  le nom des auteurs. Les résultats complets de l’enquête sont disponibles sur figshare.

Il semble cependant que les résultats pourraient être meilleurs si l’outil utilisé pour lire les pdf avait été différent. L’auteur a utilisé PDFinfo, mais on lui conseille d’utiliser un autre outil Exiftool.

La question reste cependant posée : pourquoi si peu de métadonnées embarquées dans les articles scientifiques en PDF ? que l’on peut aussi formuler autrement :  “quelles sont les avantages des éditeurs à mettre à disposition ces métadonnées ?” (voir le commentaire de Rod Page sur le billet cité).

 

source :

Pour en savoir plus :

Le livre numérique : quelles normes pour le produire, le diffuser, l’utiliser ?

Les diaporamas, vidéos et comptes-rendus de tables rondes de la journée d’étude AFNOR/BnF consacrée aux enjeux de la normalisation du livre numérique : « Le livre numérique : quelles normes pour le produire, le diffuser, l’utiliser ? » (Paris, 29 juin 2012) sont disponibles sur le site de la BnF (14/09/2012).

Vu dans EchosDoc

Guide des bonnes pratiques numériques – TGE Adonis

Ce guide est à destination des chercheurs  qui se lancent dans le numérique.

Il présente de manière assez détaillée les formats sur les métadonnées  (METS, RDF, OAI-PMH,Le Dublin Core…) et les pratiques  les plus récentes. Il est une source intéressante avant de se lancer dans des projets sur le numérique (numérisation, corpus….)

Accès aux guides du Très Grand Equipement Adonis (CNRS) : http://www.tge-adonis.fr/ressources/guides

Accès direct : Guide des bonnes pratiques numériques du TGE Adonis. (PDF)



ACAP V2.0 pour standardiser les métadonnées sur la gestion du copyright

ACAP (Automated Content Access Protocol) vise à standardiser  les métadonnées attachées aux documents définissant le statut de ces derniers en regard des droits de propriété intellectuelle. Il sera utilisé par les éditeurs, mais aussi les agences de presse pour des contenus photos par exemple et de manière plus générale par tous les producteurs de contenus sur le web.

ACAP est une initiative de European Publishers Council, World Association of Newspapers et International Publishers Association.
Selon Amico.jamespot.pro (Michel Vajou) : l’objectif initial est d’empêcher  les « crawlers » (robots d’indexation automatique) de référencer sans autorisation préalable les contenus des éditeurs et de faciliter l’obtention d’autorisation de rediffusion des contenus « ouverts ».

Implémenter ACAP prend moins de 30 minutes (voir  ici ) et consiste à convertir le fichier robots.txt du site. Ce fichier, qui contient les autorisations d’indexation par les crawlers (robots d’indexation parcourant les sites) est reconnu par les moteurs de recherche implémentant ACAP (je n’ai pas trouvé la liste).

Sources : http://www.the-acap.org/amico.jamespot.pro – 2011-07-05

Dublin Core : les logiciels sélectionnés par le DCMI

Le site du Dublin Core Metada Initiative publie une liste d’outils permettant des traitements documentaires sur le Dublin Core (extraction, génération, transformation) http://dublincore.org/tools/index.shtml.

Parmi ces outils on retrouve Talend , un outil ETL (Extract Transform Load) présenté lors de l’École Technique “Transformation des données documentaires”. Voir la présentation de Talend.