Archives par étiquette : métadonnée embarquée

La valeur de Twitter : 140 caractères et 31 métadonnées

Un article intéressant signalé sur le Scoopit de Pierre Levy.

Ford, Paul. “The Hidden Technology That Makes Twitter Huge” Bloomberg Buisinessweek Technology, November 7, 2013. http://www.businessweek.com/articles/2013-11-07/the-hidden-technology-that-makes-twitter-huge.

Les tweets, considérés comme éphèmères transportent un nombre impressionnant de métadonnées. Chaque tweet peut être incorporé (embedded) dans un site web et donc doit contenir les informations pour se décrire de manière isolée de la timelime, fenêtre ou les tweets s’affichent  au fur et à mesure de leur diffusion.

Un tweet contient une liste de 31 métadonnées. Il connait l’identité de son créateur (robot ou humain), la localisation de son endroit de création, la date, les retweets et bien d’autres petits éléments.  Le texte d’un tweet représente moins de 10% de l’information. Pour obtenir ces éléments sur les tweets, il est nécessaire de demander une clé API. Les données sont exprimées en JSON.

La liste des champs est disponible sur la page « tweets » : https://dev.twitter.com/docs/platform-objects/tweets.

Autres ressources à consulter :

  • Entities in Twitter Objects https://dev.twitter.com/docs/entities#tweets
  • REST API v1.1 Resources https://dev.twitter.com/docs/api/1.1.

L’article parait à l’heure de l’entrée en bourse de Twitter. Il explique comment un outil simple  en apparence est en fait un outil développé avec technologies modernes, mises à disposition pour les développeurs.

Cet article montre aussi la valeur ajoutée des métadonnées, presque plus importante que le contenu en lui-même.

https://dev.twitter.com/docs/entities#tweets

Pourquoi les métadonnées des PDF éditeurs sont elles si pauvres ?

C’est la traduction du titre d’un billet sur le blog de Ross Mounce.

Les métadonnées embarquées (embedded metadata) incluses dans les documents sont un eldorado pour les systèmes ou utilisateurs  ayant à gérer ce type de données. On peut les récupérer automatiquement avec des outils comme Endnote, Medeley ou Zotero pour les utilisateurs finaux ou par d’autres applications pour les dépôts dans les archives ouvertes les différents catalogues bibliographiques, les moteurs de recherche, les réseaux sociaux….

Récupérer les métadonnées produites dès la création du document  permet de disposer de données fiables et de bonne qualité si le document est une publication scientifique et que l’éditeur  scientifique prend soin de produire ces données correctement. Le format des données embarquées dans le PDF est  XMP (Adobe’s Extensible Metadata Platform) qui s’appuie sur le Dublin Core et qui est devenue une norme ISO en 2012.

L’auteur propose une analyse des métadonnées de quelques publications.

L’échantillon a porté sur des articles de 21 éditeurs, publiés pour la plupart en 2011,  dont : AAAS (Science), Wiley-Blackwell,  BMJ, Cambridge Journals Online, CSIRO, Elsevier,  Hindawi, National Academy of Sciences (PNAS), NPG, NRC Research Press, PLOS, Royal Society, SAGE, Springer-Verlag, Taylor & Francis …

11 métadonnées différentes ont été analysées dont :  Creator, Title, Subject, Author, Pages, Keywords.

Les résultats ne sont pas très satisfaisants. Sur 70 articles en pdf analysés, seulement 8 possèdent des métadonnées complètes sur la publication et 50 %  le nom des auteurs. Les résultats complets de l’enquête sont disponibles sur figshare.

Il semble cependant que les résultats pourraient être meilleurs si l’outil utilisé pour lire les pdf avait été différent. L’auteur a utilisé PDFinfo, mais on lui conseille d’utiliser un autre outil Exiftool.

La question reste cependant posée : pourquoi si peu de métadonnées embarquées dans les articles scientifiques en PDF ? que l’on peut aussi formuler autrement :  « quelles sont les avantages des éditeurs à mettre à disposition ces métadonnées ? » (voir le commentaire de Rod Page sur le billet cité).

 

source :

Pour en savoir plus :