Archives de catégorie : vocabulaire

Mise à jour des services d’Agrovoc

La FAO annonce une mise à jour des services pour exploiter Agrovoc.

Agrovoc   est le vocabulaire contrôlé  et un thésaurus couvrant tous les domaines d’intérêt de la FAO incluant la nourriture, l’alimentation l’agriculture la pêche, l’environnement etc… (voir les billets sur blog concernant Agrovoc). Il contient 32000 concepts organisé en hiérarchie avec des traductions en 22 langues.

AGROVOC est disponible dans le language  RDF/SKOS-XL, accessible à partir d’un SPARQL endpoint et peut être téléchargé suivant différent formats. Il est également possible d’inclure Agrovoc dans les applications spécifiques à travers des web services et de le parcourir à travers le site web. Agrovoc est  disponible dans les formats du web de données (linked data) et très utilisé dans toutes les applications en agriculture proposant des données dans ces formats.

AGROVOC est géré grâce à VocBench,  une plateforme open source qui permet de travailler en mode collaboratif et d’éditer des ressources multilingues. Les outils disponibles permettent de :

Agrovoc et Agroportal

AGROVOC est également désormais intégré au portail d’ontologies en agriculture AgroPortal: http://agroportal.lirmm.fr/ontologies/AGROVOC. Ceci permet de facilement créer des alignements (liens d’équivalence) de concepts entre des ontologies hébergées dans AgroPortal (dont de nombreuses produites à l’Inra) et Agrovoc. Ces liens permettent par exemple d’enrichir un concept de son ontologie avec des équivalents dans de nombreuses langues fournis par Agrovoc.

Source : An update of Agrovoc web services. AIMS blog (Agriculture Information Management Standards) . 14 avril 2017 http://aims.fao.org/activity/blog/update-agrovoc-web-services

Text Analyzer, une autre manière de rechercher des textes dans Jstor

Le blog ‘Jstor Labs’ publie, ce 6/03/17, un billet présentant ‘Text analyser‘, un nouvel outil (en mode béta) de recherche de livres ou d’articles dans la base JSTOR. (Lu sur echosdoc). [2]

Dans le premier écran on saisit par copier coller un  article , un résumé , et même une image ! En téléchargement, les formats acceptés sont :   csv, doc, docx, gif, htm, html, jpg, jpeg, json, pdf, png, pptx, rtf, tif (tiff), txt, xlsx.

Le test ci dessous a été effectué avec le titre et le résumé de l’article ” Assessment of the toxicity of pesticides on honey bee drone fertility using laboratory and semi-field approaches: A case study of fipronil” (*) (figure 1).

Figure 1 -Un résumé d’article est inséré par copier/coller

Text Analyzer reconnait ensuite les termes présents dans le texte saisi et identifie les termes et demande à l’utilisateur de  modifier la priorisation par défaut ou de rajouter les termes. Les documents retrouvés avec les termes s’affichent dans la partie droite.

Text Analyzer effectue trois types d’analyses [3]

  • Les termes (concepts) présents dans le textes sont identifiés utilisant un vocabulaire contrôlé de plus de 40 000 termes  et un ensemble de règles sélectionnées par des humains.
  • Les concepts “sujets latents” sont inférés en utilisant  LDA (Latent Dirichlet allocation)  (**) appliqué sur les contenus JSTOR et avec les termes du vocabulaire controlé.
  • Les entités nommées (Named entities persons, locations, organizations) sont identifiés utilisant plusieurs outils dont Alchemy (de IBM), OpenCalais (de Thompson Reuters), le Stanford Named Entity Recognizer, et Apache OpenNLP et ensuite classés selon leur importance dans le texte.

Les topics sont présentés dans la partie en bas à gauche IDENTIFIED TERMS  (figure 2) dans la partie PRIORITIRIZED TERMS permet de de sélectionner les 5 concepts principaux utilisés pour la recherche des documents qui s’affiche à droite.

Figure 2 – Le résultat de Text Analyzer

Alex Humpreys rappelle que la recherche par mots clés  n’est pas parfaite et c’est la raison pour laquelle Text Analyzer a été développé [1]. Ce serait intéressant d’avoir accès au vocabulaire contrôlé de JSTOR (en linked data)  et pourquoi pas de pouvoir rajouter son propre vocabulaire pour les différentes traitements.

Sources :

  1. Humphreys, Alex. “On Beyond Keyword Search : Introducing Text Analyzer.” Accessed March 7, 2017. http://labs.jstor.org/blog/#!on_beyond_keyword_search-introducing_text_analyzer.
  2. Price, Gary. “A New Way to Search JSTOR: JSTOR Labs Introduces ‘Text Analyzer’ (Beta).” LJ INFOdocket. Accessed March 7, 2017. http://www.infodocket.com/2017/03/06/a-new-way-to-search-jstor-jstor-labs-introduces-text-analyzer-beta/.
  3. “JSTOR Labs Text Analyzer.” Accessed March 7, 2017. https://www.jstor.org/analyze/about.

(*) Kairo, Guillaume, Yannick Poquet, Haïthem Haji, Sylvie Tchamitchian, Marianne Cousin, Marc Bonnet, Michel Pelissier, André Kretzschmar, Luc P. Belzunces, and Jean-Luc Brunet. “Assessment of the Toxicity of Pesticides on Honey Bee Drone Fertility Using Laboratory and Semi-Field Approaches: A Case Study of Fipronil.” Environmental Toxicology and Chemistry, February 1, 2017, n/a-n/a. doi:10.1002/etc.3773.

(**) https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente

Le thésaurus de l’Unesco publié dans les standards du web sémantique, avec des logiciels libres

Le thésaurus de l’Unesco vient d’être publié et mis en ligne sur la plateforme http://vocabularies.unesco.org. Un billet de la société Sparta, qui a réalisé le travail, explique les technologies utilisées pour ce projet.

Le projet a été mené en deux phases :

Une plateforme de publication qui s’appuie sur  Skosmos , SKOS Play et Fuseki  La couche sémantique est assurée par la publication des données en SKOS, l’un des standards du web sémantique en tant que format d’échange des données, par une interface SPARQL qui permet d’interroger ou d’exploiter les données et par des identifiants URI déréférençables.

Skosmos  permet d’avoir une interface en 4 langues (français, anglais, espagnol et Russe), de naviguer dans le thésaurus et de rechercher directement dans la base documentaire UNESDOC.

unesco-skosmos

UNESCO thesaurus published in Skosmos (Sparna)

SKOS Play  a été utilisé pour générer automatiquement une version du Thesaurus en PDF avec plusieurs entrées.

Fuseki,avec un formulaire personnalisé en SPARQL, est utilisé pour la recherche publique dans le  public SPARQL querying of the thesaurus.

La deuxième phase correspond à l’outil de gestion du thésaurus. Celle-ci est réalisée avec VocBench, un outil libre de gestion de Thesaurus, multi-utilisateurs, en SKOS  développé par l’université de Tor Vergata à Rome. VocBench s’appuie sur le standard SKOS-XL et sur  GraphDB, un “tripplestore” RDF.

unesco-vocbench

UNESCO Thesaurus managed in VocBench (source SPARNA)

Source : UNESCO Thesaurus published with Semantic Web standards and Open-Source software. 6 février 2017. http://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/. visité le 6 février 2017.

“Types de ressources” : un nouveau vocabulaire proposé par COAR

Logo COARLa Confederation of Open Access Repositories (COAR) développe une série de vocabulaires contrôlés pour le Libre Accès. Le premier de ces vocabulaire concerne les types de ressources dont la première version (version provisoire 1.0 du juillet 2015) est disponible pour commentaires jusqu’au 1 Octobre 2015.
Ce vocabulaire est un des livrables du groupe “Controlled Vocabularies for Repository Assets” de COAR auquel l’Inra participe.

Vu sur EchosDoc

Gestion de vocabulaire : Nouvelle version de TemaTres

tematres Tematres vient d’être mis à jour (dernière version 2.0). Cet outil permet de gérer des vocabulaires de tous types :  taxonomies thesaurus ontologie (?) . avec de nouvelles fonctionnalités comme l’interaction avec Moodle, un résumé sur chaque terme, la possibilité d’éditer des rapports et de nouvelles fonctions d’import….Plus de 300 vocabulaires sont disponibles à travers cet outil.

A noter que la FAo développe Vocbench (cité plusieurs fois sur ce blog) , un outil qui rassemble la plupart de ces fonctionnalités mais qui permet la création de rôles pour travailler collectivement sur les termes.

Sources : TemaTres 2.0 released. Diego Ferreyra. August 10, 2015.http://www.vocabularyserver.com/blog/tematres-2-0-released/

Global Agricultural Concept Scheme (GACS)

Global Agricultural Concept Scheme, dont la première version GACS Beta 1.0 vient de sortir, est un projet collaboratif entre la FAO, CABI et la NAL, coordonné par Catarina Carraciolo (FAO), qui a pour objectif la réalisation d’un vocabulaire (informations terminologiques et conceptuelles) commun en agriculture, basé sur les principes et technologies du web de données.

La FAO, CABI et la NAL maintiennent chacun un thésaurus dans le domaine de l’agriculture :

  • Agrovoc : 32 000 concepts, 1,2 million de termes (20 langues)
  • CAB thesaurus : 140 000 concepts, 1,4 million de termes (anglais, espagnol, portugais, allemand, plus d’autres langages sur une moindre couverture)
  • NAL thesaurus : 53 000 concepts, 200 000 termes (anglais, espagnol)

L’enjeu est de fournir des concepts partagés par ces trois thesauri (+ de 13600 concepts communs), d’améliorer leur interopérabilité et de réaliser des économies d’échelle en coopérant pour la maintenance des concepts de base.
GACS Beta est une preuve de concept : chaque partenaire a fourni les 10 000 concepts les plus utilisés dans leurs bases respectives. Les pays, ainsi que la hiérarchie des organismes, ont été ajoutés. La mise en correspondance (mapping) automatique des concepts a été vérifiée ensuite manuellement par les organisations partenaires (5 à 600 heures). Plus de 15 000 concepts ont été identifiés dans GACS Beta à l’issue de ce mapping,.

Outils utilisés

Pour en savoir plus sur les aspects techniques du projet : Global Agricultural Concept Scheme (présentation de Osma Suominen et Thomas Baker).

Source : Global Agricultural Concept Scheme (GACS) Beta 1.0 released | Agricultural Information Management Standards (AIMS)

Guide de ressources sur les taxonomies

Taxonomy Creation & Management Resources est un guide de ressources sur la construction et la gestion des taxonomies, thésaurus, ontologies et autres vocabulaires utiles aux linked data, construit par Eric Ziecker à partir des suggestions de plus de 50 professionnels du domaine.
Ce portail de signets est réalisé avec Springshare, outil propriétaire utilisé en particulier par les bibliothèques pour construire des services de référence virtuels.

D’après le billet de Sylvie Dalbin publié sur la liste du secteur Taxonomies et Métadonnées de l’ADBS