Archives de catégorie : Métadonnées

La valeur de Twitter : 140 caractères et 31 métadonnées

Un article intéressant signalé sur le Scoopit de Pierre Levy.

Ford, Paul. “The Hidden Technology That Makes Twitter Huge” Bloomberg Buisinessweek Technology, November 7, 2013. http://www.businessweek.com/articles/2013-11-07/the-hidden-technology-that-makes-twitter-huge.

Les tweets, considérés comme éphèmères transportent un nombre impressionnant de métadonnées. Chaque tweet peut être incorporé (embedded) dans un site web et donc doit contenir les informations pour se décrire de manière isolée de la timelime, fenêtre ou les tweets s’affichent  au fur et à mesure de leur diffusion.

Un tweet contient une liste de 31 métadonnées. Il connait l’identité de son créateur (robot ou humain), la localisation de son endroit de création, la date, les retweets et bien d’autres petits éléments.  Le texte d’un tweet représente moins de 10% de l’information. Pour obtenir ces éléments sur les tweets, il est nécessaire de demander une clé API. Les données sont exprimées en JSON.

La liste des champs est disponible sur la page « tweets » : https://dev.twitter.com/docs/platform-objects/tweets.

Autres ressources à consulter :

  • Entities in Twitter Objects https://dev.twitter.com/docs/entities#tweets
  • REST API v1.1 Resources https://dev.twitter.com/docs/api/1.1.

L’article parait à l’heure de l’entrée en bourse de Twitter. Il explique comment un outil simple  en apparence est en fait un outil développé avec technologies modernes, mises à disposition pour les développeurs.

Cet article montre aussi la valeur ajoutée des métadonnées, presque plus importante que le contenu en lui-même.

https://dev.twitter.com/docs/entities#tweets

Hub de métadonnées à l’ABES

L’ABES a mis en ligne (15 juillet 2013) le rapport final de l’ Etude de faisabilité d’un hub de métadonnées ABES destiné offrir un service de « redistribution dans n’importe quel format des métadonnées enrichies récupérées dans n’importe quel format auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases« . Une des missions principales du hub est ainsi d’alimenter le web de données en données enrichies et de qualité.

Les données récupérées proviennent d’éditeurs (Springer : revues, articles, ebooks sous licence nationale, ebooks Dalloz, revues.org) et du SUDOC (thèses antérieures à 1985). Ces données, très hétérogènes, sont converties en RDF sans rien perdre de leur richesse d’origine.

Ce rapport montre très bien et simplement les atouts de RDF dans un tel projet. Il décrit succinctement et clairement le processus (acquisition, analyse des anomalies et de la complétude, normalisation, correction, enrichissement et redistribution des métadonnées), les problèmes rencontrés et les choix qui ont été faits en donnant des exemples concrets correspondant aux corpus traités.

Le projet FreeYourMetadata… avec Google Refine


Signalé par la page Facebook de la communauté AIMS de la FAO, FreeyourMetadata.org est un projet  du  Multimedia Lab (ELIS — Ghent University / iMinds) et du MaSTIC (Université Libre de Bruxelles).
Ce projet montre des exemples, avec des jeux de données disponibles du Power Museum (Sidney, Australia) et avec l’outil Google Refine comment effectuer trois composantes essentielles du traitement des données.

  1. Le nettoyage : harmoniser et corriger les données
  2. La réconciliation : lier les données avec des vocabulaires existants
  3. La publication des données  : rendre les données utilisables d’une manière durable

Pour chacune des trois actions, une procédure par étape (et des vidéos) explique comment utiliser Google Refine. Un jeu de données résultant de chaque étape est disponible.
Pour l’action 2, l’extension de Google Refine  DERI RDF Extension for Google Refine doit être installée. Les données initiales sont ici connectées automatiquement au vocabulaire contrôlé  Library of Congress Subject Headings (LCSH). Le site explique aussi  comment extraire des entités nommées(*) à partir  de données non structurées  en utilisant une extension développée par le projet OpenRefine extension.
Enfin, nous attendons avec impatience l’action 3 :  Sustainable  access.
Les responsables de ce projet donnent aussi des conférences sur ce sujet.. voir le site.
A voir absolument la vidéo d’introduction (en anglais) pour vous convaincre de l’intérêt de promouvoir les Linked data.
(*) La reconnaissance d’entité nommées (extract names entities) consiste à rechercher des objets textuels (c’est-à-dire un mot, ou  un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d’organisations ou d’entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. (source wikipédia).

Utopia Documents : un lecteur de fichier PDF optimisé pour les publications scientifiques

Utopia Documents explore le contenu d’un article au format PDF en s’appuyant sur des ressources externes et sur les enrichissements présents dans le document lorsqu’ils existent.

Il permet ainsi d’afficher directement dans l’interface de visualisation du pdf :

  • la référence correspondante sous différents formats (via CrossRef),
  • l’impact de l’article dans les réseaux sociaux (via Altmetric),
  • les articles en relation (via Mendeley),
  • la politique de dépôt de la revue (via Sherpa/RoMEO),
  • des données en relation avec l’article (via Dryad),
  • des informations sur les molécules, les gènes, les espèces… ou les matériels de laboratoire utilisés (via SciBite, Protein DataBank, dbpedia, AQnowledge,…)

Les enrichissements apportés par les éditeurs sont exploités (exemple des articles enrichis de Portland Press’ Biochemichal Journal ou de la Royal Society of Chemistry : affichage et rotation d’une molécule en 3D, export ou présentation sous une autre forme des données d’un tableau…).

Cette analyse est réalisée automatiquement à l’ouverture du document.

L’image ci-dessous montre la publication « Towards a worldwide wood economics spectrum » juste après son chargement dans Utopia Documents. A droite apparaissent les informations en relation avec cette publication.

la publication "Towards a worldwide wood economics spectrum" juste après son chargement dans Utopia Documents

Cette première analyse peut être complétée par l’exploration des ressources externes à partir d’un terme ou d’une phrase sélectionnés par l’utilisateur (fonction « Explore » disponible via un menu en info-bulle) ou saisis dans une boite de recherche.

Exemple ci-dessous avec terme « Populus » :

la fonction "Explore" sur le terme "Populus"

Le résultat de l’exploration est affiché dans le partie droite de l’écran :

résultat de l'exploration du terme "populus"

Un terme sélectionné par l’utilisateur peut également faire l’objet d’une recherche sur des sites externes (clic droit puis « Lookup selected text ») : NCBI, Quertle, Google, Wikipedia, Dictionary.com et Thesaurus.com.

Tout document peut être annoté (clic droit puis « Annotate document ») au moyen de différents annotateurs : GPCRDB (information system for G protein-coupled receptors), NuclearDB (information system for Nuclear Receptors) et Reflect (Reflect highlights protein and small molecule names).

Exemple d’information obtenue sur la protéine « PgC » après une annotation par Reflect :

Exemple d'information obtenue sur la protéine "PgC" après une annotation par Reflect

Les informations affichées par Utopia documents sont obtenues via des web-services, des accès à des bases de données ou à des entrepôts RDF (Bio2RDF et DBPedia en particulier).

Les utilisateurs peuvent commenter des parties du document et partager ces commentaires.

Utopia Documents est publié par Lost Island Labs Ltd (LIL) en association avec Academic Concept Knowledge Ltd (AQnowledge) ; il est gratuit et disponible pour Mac, Windows et Linux à http://utopiadocs.com.

Métadonnées et indicateurs pour le libre accès : projet de norme de la NISO

La National Information Standards Organization (NISO) a approuvé un nouveau projet de développement de métadonnées bibliographiques normalisées et d’indicateurs visuels pour décrire l’accessibilité des articles de revues du point du vue du libre accès. Cette initiative devrait permettre de clarifier des offres qui, bien que présentées par les éditeurs sous la banière du libre accès, peuvent être très différentes. Tous les acteurs de la chaine éditoriale (Auteurs, éditeurs, agrégateurs et lecteurs) devraient en tirer bénéfice.
Voir le communiqué de presse de la NISO

Vu sur LaLIST

Pourquoi les métadonnées des PDF éditeurs sont elles si pauvres ?

C’est la traduction du titre d’un billet sur le blog de Ross Mounce.

Les métadonnées embarquées (embedded metadata) incluses dans les documents sont un eldorado pour les systèmes ou utilisateurs  ayant à gérer ce type de données. On peut les récupérer automatiquement avec des outils comme Endnote, Medeley ou Zotero pour les utilisateurs finaux ou par d’autres applications pour les dépôts dans les archives ouvertes les différents catalogues bibliographiques, les moteurs de recherche, les réseaux sociaux….

Récupérer les métadonnées produites dès la création du document  permet de disposer de données fiables et de bonne qualité si le document est une publication scientifique et que l’éditeur  scientifique prend soin de produire ces données correctement. Le format des données embarquées dans le PDF est  XMP (Adobe’s Extensible Metadata Platform) qui s’appuie sur le Dublin Core et qui est devenue une norme ISO en 2012.

L’auteur propose une analyse des métadonnées de quelques publications.

L’échantillon a porté sur des articles de 21 éditeurs, publiés pour la plupart en 2011,  dont : AAAS (Science), Wiley-Blackwell,  BMJ, Cambridge Journals Online, CSIRO, Elsevier,  Hindawi, National Academy of Sciences (PNAS), NPG, NRC Research Press, PLOS, Royal Society, SAGE, Springer-Verlag, Taylor & Francis …

11 métadonnées différentes ont été analysées dont :  Creator, Title, Subject, Author, Pages, Keywords.

Les résultats ne sont pas très satisfaisants. Sur 70 articles en pdf analysés, seulement 8 possèdent des métadonnées complètes sur la publication et 50 %  le nom des auteurs. Les résultats complets de l’enquête sont disponibles sur figshare.

Il semble cependant que les résultats pourraient être meilleurs si l’outil utilisé pour lire les pdf avait été différent. L’auteur a utilisé PDFinfo, mais on lui conseille d’utiliser un autre outil Exiftool.

La question reste cependant posée : pourquoi si peu de métadonnées embarquées dans les articles scientifiques en PDF ? que l’on peut aussi formuler autrement :  « quelles sont les avantages des éditeurs à mettre à disposition ces métadonnées ? » (voir le commentaire de Rod Page sur le billet cité).

 

source :

Pour en savoir plus :

Qualinca : qualité et interopérabilité de grands catalogues documentaires

Dans un contexte où les grands catalogues documentaires sont en train de passer de l’ère de la gestion de bases de métadonnées à l’ère du web sémantique, Qualinca (Qualité et interopérabilité de grands catalogues documentaires) est un projet de recherche fondamentale qui se propose d’élaborer des mécanismes permettant de qualifier, maintenir et améliorer le niveau de qualité d’une base documentaire existante et de disposer de méthodes génériques d’exploitation de ces bases dépendants de leur niveau de qualité.

Le projet est financé par l’Agence Nationale de la Recherche sur la période 2012-2015. Les partenaires sont GRAPHIK – LIRMM (INRIA/Université de Montpellier 2/CNRS/INRA), l’ABES (Agence Bibliographique de l’Enseignement Supérieur) et le LRI (Laboratoire de Recherche en Informatique, Université de Paris Sud).

Vu sur Fil ABES

Le thesaurus Agrovoc en linked open data

Annoncée le 17/07 sur le site de la FAO Agricultural Information Management Standards (AIMS)

Le vocabulaire  international en agriculture de la FAO, AGROVOC a été mis à jour. Cette nouvelle version 2012 contient 625,096 termes dans 22 langues différentes dont le malaisien, le telugu et le turc.

Il est possible d’explorer Agrovoc en recherche  (by searching terms) ou  en naviguant dans le site (browsing hierarchies). AGROVOC 2012 est disponible en téléchargement, et accessible via webservices (Les web services sont  permettent aux programmateur d’implémenter ou d’utiliser Agrovoc  dans n’importe quelle application).

AGROVOC est aussi publié en linked data et aligné (lié quand un terme est équivalent) avec d’autres vocabulaires voir la page Agrovoc Linked Open Data.

Exemple : accès en Agrovoc Linked Open Data au terme « agriculture  biologique ». Le concept c_2961 est celui utilisé dans Agrovoc quand vous rechercher le terme http://aims.fao.org/aos/agrovoc/c_29261.

Le concept « Organic agriculture » de Agrovoc  en Linked Open Data vu dans l’outil de visualisation Pubby

Le Sparql Endpoint qui permet d’interroger Agrovoc en Linked Data avec le langage SPARQL se trouve à l’adresse suivante : http://agrovoc.mimos.my:55824/catalogs/performance/repositories/agrovoc#.

Des exemples de la syntaxe SPARQL sont aussi donnés sur la page Agrovoc Linked Open Data.

Cartographie des standards de métadonnées

Voici une cartographie de l’univers des standards de métadonnées qui peut aider dans le choix des standards de métadonnées.
La carte est construite autour de 4 axes: le domaine d’application, la communauté, la fonction, la finalité. Chacun de ces axes est composé de catégories. Chacun des 105 standards figurant dans cette carte est évalué selon son niveau d’applicabilité aux différentes catégories. Le niveau d’applicabilité ou la force d’un standard dans une catégorie résulte à la fois de son niveau d’adoption, de sa finalité et surtout de sa pertinence dans cette catégorie.
La carte se présente  sous la forme de deux elipses. La moitié de chaque élipse représente un des quatre axes sus mentionnés. Chaque axe est subdivisé en « quartiers » représentant ses catégories. Plus un standard est mentionné proche du centre de l’elipse, plus le lien de ce standard avec la catégorie concernée est fort.
Un glossaire des standards de métadonnées accompagne la carte.

  • Les catégories de l’axe domaine: ressources visuelles, textes scolaires, matériels de musique, images de films, données géospatiales, datasets, objets culturels;
  • Les catégories de l’axe communauté: archives, industrie de l’information, bibliothèques, musées;
  • Les catégories de l’axe fonction: modèle conceptuel, standard de contenu, vocabulaire contrôlé, framework technologique, langage balisé, format d’enregistrement, standard de structure
  • les catégories de l’axe finalité: données, metadonnées descriptives, metadonnées de droits, metadonnées de préservation, metadonnées de structure, metadonnées techniques.

 

Agrotagger: indexation automatique de PDFs avec le thesaurus Agrovoc

Le site  Agrotagger 2.0 en version bêta (démonstration) permet de « tagger » ou d’indexer automatiquement, en anglais, vos documents en PDF ou en format Word à l’aide du thesaurus Agrovoc de la FAO. Il utilise un extracteur de terme KEA (qui semble un peu ancien). Les résultats (mots-clés) sont présentés  sous la forme de triplets RDF avec des renvois dans Agrovoc et un nuage de tags des mots clés.
http://agrovoc.mimos.my:58301/AgroTagger/

Voici une démonstration sur le PDF de l’article : Laurent Bréhélin L.; Gascuel O.; Martin O. (2008) Using repeated measurements to validate hierarchical gene clusters. Bioinformatics 24 (5): 682-688. doi : 10.1093/bioinformatics/btn017. Les mots clés trouvés sont les suivants :

Tags Agrovoc URIs
genes http://aims.fao.org/aos/agrovoc/c_27532
gene expression http://aims.fao.org/aos/agrovoc/c_27527
Bioinformatics http://aims.fao.org/aos/agrovoc/c_37958
Animal husbandry http://aims.fao.org/aos/agrovoc/c_25746
genomes http://aims.fao.org/aos/agrovoc/c_3224
Cell differentiation http://aims.fao.org/aos/agrovoc/c_2265
operations research http://aims.fao.org/aos/agrovoc/c_5364
Experimental design http://aims.fao.org/aos/agrovoc/c_29466
transcription http://aims.fao.org/aos/agrovoc/c_35127
Sampling http://aims.fao.org/aos/agrovoc/c_6774

Un autre service est développé  par la FAO dans le cadre du projet agINFRA, utilisant le Framework d’indexation Maui. Une version de test est disponible :  http://maui-indexer.appspot.com/

Le résultat sur le même article est le suivant

Input document : Vol. 24 no. 5 2008, pages 682–688 BIOINFORMATICS doi:10.1093/bioinformatics/btn017 Gene expression Using repeated measurements to validate hierarchical gene clusters.

Source : voir http://aims.fao.org/agrotagger