Archives de catégorie : Catalogage et indexation

Opendatamonitor: un site pour trouver, analyser et comparer des données ouvertes

Opendatamonitor est un « observatoire »  des données ouvertes développé dans le cadre d’un projet européen FP7. Opendatamonitor « moissonne » des catalogues de données et permet de localiser des jeux de données ouvertes tout en informant sur leur degré d’ouverture.  Les jeux de données sont analysés selon 4 critères : licence (ouverte ou non), formats (lisibles par les machines ou non), disponibilité et complétude des métadonnées. Par exemple, sur l’ensemble des catalogues moissonnés à ce jour par Opendatamonitor, 75% des jeux de données sont publiés avec une licence ouverte, 45% le sont dans des formats « machine readable », 65% sont disponibles, et 58% sont décrits avec des métadonnées généralement reconnues comme indispensables (licence, author, organisation, date released and date updated). En France, ces proportions sont respectivement de 46%, 47%, 87% et 72%.
Les catalogues de données de la recherche semblent absents pour l’instant de cette plateforme.

Pour en savoir plus : http://www.opendatamonitor.eu

opendatamonitor

opendatamonitor2

 

Gestion de vocabulaire : Nouvelle version de TemaTres

tematres Tematres vient d’être mis à jour (dernière version 2.0). Cet outil permet de gérer des vocabulaires de tous types :  taxonomies thesaurus ontologie (?) . avec de nouvelles fonctionnalités comme l’interaction avec Moodle, un résumé sur chaque terme, la possibilité d’éditer des rapports et de nouvelles fonctions d’import….Plus de 300 vocabulaires sont disponibles à travers cet outil.

A noter que la FAo développe Vocbench (cité plusieurs fois sur ce blog) , un outil qui rassemble la plupart de ces fonctionnalités mais qui permet la création de rôles pour travailler collectivement sur les termes.

Sources : TemaTres 2.0 released. Diego Ferreyra. August 10, 2015.http://www.vocabularyserver.com/blog/tematres-2-0-released/

Une réunion d’experts pour renforcer les aspects sémantiques en agriculture

schemaGACS

from http://aims.fao.org/sites/default/files/files/Breakout_1.pdf

Un workshop « Improving Semantics in Agriculture » a réuni 35 experts  à la FAO les 2 et 3 juillet 2015. Les présentations sont disponibles sur le site AIMS. L’Inra était présent.

L’objectif de ce workshop était de dresser une feuille de route de  gestion de l’information partagée en agriculture en s’appuyant sur le partage de données sémantiques.

Le GACS (« Global Agricultural Concept Scheme ») voir le billet sur ce blog,  a commencé le travail dans cette direction en créant un noyau commun pour les trois thesaurus  majeurs en agriculture – Agrovoc, CAB et NAL – pour créer un entrepôt global de l’information conceptuelle et terminologique.

Il reste encore beaucoup à faire pour créer un point de référence et un hébergement pour les vocabulaires, taxonomies et ontologies en agriculture et nutrition. Après la phase d’expérimentation et de prototype, cette réunion avait pour objectif de proposer des pistes d’ évolutions futures.

Une synthèse « Préworkshop » des besoins de chaque institutions présente a été réuni dans un document. Les présentations des différents intervenants  et l’enregistrement audio des séances sont disponibles sur   http://aims.fao.org/node/117665

Souce « Improving Semantics in Agriculture » Workshop. 2-3 July 2015, FAO HQ. AIMS. http://aims.fao.org/node/117665

Ouverture du site Transition bibliographique

 

transitionbib

Dans le domaine du catalogage, le défi fondamental auquel les bibliothèques sont confrontées est l’exposition et la visibilité de leurs collections et de leurs métadonnées sur le web. Pour atteindre cet objectif, la France s’est intéressée au code de catalogage RDA (Ressources : Description et Accès)… dont les deux grandes promesses sont les suivantes : – mieux répondre aux attentes des usagers grâce à l’implémentation du modèle FRBR, qui permet le regroupement par œuvres des ressources (imprimées ou numériques) et des recherches plus intuitives ; – gagner en interopérabilité avec les réservoirs de données d’autres communautés afin de répondre à la nécessité économique d’un meilleur partage des tâches de production et d’enrichir les services proposés.[1]

Il semble à l’heure actuelle difficile de convertir les catalogues au format  RDA  mais Il est préférable d’avancer progressivement mais concrètement vers la FRBRisation des catalogues.[3]

Le site  transition bibliographique http://transition-bibliographique.fr/ propose des informations pérennes et d’actualité sur tous les sujets relatifs aux évolutions de l’information bibliographique : nouvelles règles de catalogage, travaux de normalisation en cours, dispositifs de formation, évolutions de l’informatique documentaire. [2].

Voir aussi le billet sur ce blog Dossier sur RDA : Resource Description and Access.

Sources :

  1. De RDA en France à la Transition bibliographique Préconisations de l’ABES et de la BnF pour favoriser l’évolution des catalogues nationaux vers le web des données liées.Novembre 2014. http://www.bnf.fr/documents/1411_transition_bibliographique.pdf
  2. Ouverture du site web du programme « Transition bibliographique ». 26 juin 2015. http://corist-shs.cnrs.fr/node/397
  3. La Transition bibliographique en France. http://transition-bibliographique.fr/enjeux/position-francaise-rda/

Global Agricultural Concept Scheme (GACS)

Global Agricultural Concept Scheme, dont la première version GACS Beta 1.0 vient de sortir, est un projet collaboratif entre la FAO, CABI et la NAL, coordonné par Catarina Carraciolo (FAO), qui a pour objectif la réalisation d’un vocabulaire (informations terminologiques et conceptuelles) commun en agriculture, basé sur les principes et technologies du web de données.

La FAO, CABI et la NAL maintiennent chacun un thésaurus dans le domaine de l’agriculture :

  • Agrovoc : 32 000 concepts, 1,2 million de termes (20 langues)
  • CAB thesaurus : 140 000 concepts, 1,4 million de termes (anglais, espagnol, portugais, allemand, plus d’autres langages sur une moindre couverture)
  • NAL thesaurus : 53 000 concepts, 200 000 termes (anglais, espagnol)

L’enjeu est de fournir des concepts partagés par ces trois thesauri (+ de 13600 concepts communs), d’améliorer leur interopérabilité et de réaliser des économies d’échelle en coopérant pour la maintenance des concepts de base.
GACS Beta est une preuve de concept : chaque partenaire a fourni les 10 000 concepts les plus utilisés dans leurs bases respectives. Les pays, ainsi que la hiérarchie des organismes, ont été ajoutés. La mise en correspondance (mapping) automatique des concepts a été vérifiée ensuite manuellement par les organisations partenaires (5 à 600 heures). Plus de 15 000 concepts ont été identifiés dans GACS Beta à l’issue de ce mapping,.

Outils utilisés

Pour en savoir plus sur les aspects techniques du projet : Global Agricultural Concept Scheme (présentation de Osma Suominen et Thomas Baker).

Source : Global Agricultural Concept Scheme (GACS) Beta 1.0 released | Agricultural Information Management Standards (AIMS)

Les notices de la European Library en linked data à télécharger

Staveren, Elco van. Linked Data, September 27, 2013. http://www.flickr.com/photos/103454225@N06/9965173654/.

Le RLUK (Research Libraries UK) et la European Library [1] ( dont le RLUK est membre) ont mis en ligne  17 millions de références en linked open data avec le format RDF turtle. La European Library diffuse près de 22 millions de documents électroniques et 146 millions de références bibliographiques. Elle est composée de  48 bibliothèques nationales et de recherches.

Le billet RLUK/European Library Linked Data Sample sur le blog Aurlog apporte des commentaires sur les choix des formats qui ont été utilisés.

source: “RLUK/European Library Linked Data Sample « Aurlog.” Accessed April 11, 2014. http://www.aurochs.org/aurlog/2014/04/11/rlukeuropean-library-linked-data-sample/.

Bartoc, LOV et VEST : des répertoires d’ontologies, de thesaurus et de vocabulaires

http://www.bartoc.org/

Le registre de l’Université de Bâle comprend 600 ontologies/thesauri/vocabulaires en 65 langues : http://Bartoc.org . Les ressources sont classées selon la classification décimale de Dewey (DCC) et le thesaurus Eurovoc (CEE). L’onglet « Ressources » répertorie des sites contenant plusieurs vocabulaires.

http://lov.okfn.org/dataset/lov/

LOV recense des vocabulaires pour des applications en linked open data, RDFS ou des ontologies en OWL.

http://aims.fao.org/vest-registry/browse-by-vocabularies

VEST Registry est un répertoire de la FAO sur des vocabulaires principalement à utiliser en indexation. Il contient plus de 500 vocabulaires.

Concepts et vocabulaires : les différentes représentations de la réalité

La déclinaison d’un concept qui peut paraitre univoque ou consensuel peut varier selon les vocabulaires. A partir d’un exemple – Le concept « France » à travers 4 thésaurus – Sylvie Dalbin montre pourquoi il est important de connaitre le contexte d’usage et l’histoire de ces vocabulaires et de comprendre les modèles sous-jacents avant de les utiliser, en particulier pour aligner1 ses propres données à l’un d’eux.

  1. Aligner différents vocabulaires consiste à identifier les termes qui leur sont communs et à enregistrer ces relations (voir Linked data glossary ).

Dossier sur RDA : Resource Description and Access

Pour les passionnés, un dossier en français consacré à la nouvelle norme de catalogage « Ressources : Description et Accès » (RDA) est disponible sur « Espace B », le Blogue des bibliothèques de la ville de Montréal. Il comporte 4 parties :

  • Qu’est-ce que les RDA ? retrace l’historique des règles de catalogage depuis l’apparition des AACR (Anglo-American Cataloguing Rules) en 1967 jusqu’au RDA destiné à les remplacer. Nouvelle approche du catalogage adaptée à l’environnement actuel des bibliothèques dominé par le web, RDA s’appuie sur deux modèles d’information bibliographique : FRBR (Functional Requirements for Bibliographic Records / Spécifications fonctionnelles des notices bibliographiques) et FRAD (Functional Requirements for Authority Data / Fonctionnalités requises des données d’autorité), et utilise le formalisme informatique entités-attributs-relations.
  • Comment fonctionnent les RDA ? Les FRBR identifient 3 groupes d’entités, dotées d’attributs et reliées par des relations, qui concernent :
    – le document : Œuvre, Expression, Manifestation, Item ou Document,
    – les autorités : personnes, collectivités,
    – le sujet : concept, objets, lieux et événements,
    et permettent une vision d’ensemble d’une œuvre et les relations qui se tissent entre cette œuvre et ses manifestations concrètes.
    Étant une norme de contenu et non d’encodage, RDA permet de s’ouvrir à plusieurs formats d’encodage ou normes de métadonnées (MARC, Dublin Core, MODS, ONIX etc.) et d’intégrer les notices bibliographiques des bibliothèques à celles produites par d’autres communautés. RDA offre ainsi l’opportunité d’intégrer les catalogues sur le web sémantique.
  • RDA et la FRBRisation des catalogues : comment l’OCLC, la Library of Congress ou les bibliothèques de l’Université catholique de Louvain s’emparent des possibilités offertes par les FRBR. Plusieurs grandes bibliothèques (Library of Congress, bibliothèques nationales du Canada, de Grande-Bretagne, d’Allemagne et d’Australie, Bibliothèques et Archives nationales du Québec) ont annoncé qu’elles allaient implanter et utiliser RDA à partir de  2013.
  • Les catalogueurs et les RDA : l’impact pour les catalogueurs sera sans doute important car il devront non seulement adopter une nouvelle terminologie mais modifier totalement leur démarche intellectuelle tant diffèrent les structures des codes AACR et RDA.

vu sur EchosDoc

Voir aussi