Archives par étiquette : XMP

Pourquoi les métadonnées des PDF éditeurs sont elles si pauvres ?

C’est la traduction du titre d’un billet sur le blog de Ross Mounce.

Les métadonnées embarquées (embedded metadata) incluses dans les documents sont un eldorado pour les systèmes ou utilisateurs  ayant à gérer ce type de données. On peut les récupérer automatiquement avec des outils comme Endnote, Medeley ou Zotero pour les utilisateurs finaux ou par d’autres applications pour les dépôts dans les archives ouvertes les différents catalogues bibliographiques, les moteurs de recherche, les réseaux sociaux….

Récupérer les métadonnées produites dès la création du document  permet de disposer de données fiables et de bonne qualité si le document est une publication scientifique et que l’éditeur  scientifique prend soin de produire ces données correctement. Le format des données embarquées dans le PDF est  XMP (Adobe’s Extensible Metadata Platform) qui s’appuie sur le Dublin Core et qui est devenue une norme ISO en 2012.

L’auteur propose une analyse des métadonnées de quelques publications.

L’échantillon a porté sur des articles de 21 éditeurs, publiés pour la plupart en 2011,  dont : AAAS (Science), Wiley-Blackwell,  BMJ, Cambridge Journals Online, CSIRO, Elsevier,  Hindawi, National Academy of Sciences (PNAS), NPG, NRC Research Press, PLOS, Royal Society, SAGE, Springer-Verlag, Taylor & Francis …

11 métadonnées différentes ont été analysées dont :  Creator, Title, Subject, Author, Pages, Keywords.

Les résultats ne sont pas très satisfaisants. Sur 70 articles en pdf analysés, seulement 8 possèdent des métadonnées complètes sur la publication et 50 %  le nom des auteurs. Les résultats complets de l’enquête sont disponibles sur figshare.

Il semble cependant que les résultats pourraient être meilleurs si l’outil utilisé pour lire les pdf avait été différent. L’auteur a utilisé PDFinfo, mais on lui conseille d’utiliser un autre outil Exiftool.

La question reste cependant posée : pourquoi si peu de métadonnées embarquées dans les articles scientifiques en PDF ? que l’on peut aussi formuler autrement :  « quelles sont les avantages des éditeurs à mettre à disposition ces métadonnées ? » (voir le commentaire de Rod Page sur le billet cité).

 

source :

Pour en savoir plus :