Archives par étiquette : recherche_information

Text Analyzer, une autre manière de rechercher des textes dans Jstor

Le blog ‘Jstor Labs’ publie, ce 6/03/17, un billet présentant ‘Text analyser‘, un nouvel outil (en mode béta) de recherche de livres ou d’articles dans la base JSTOR. (Lu sur echosdoc). [2]

Dans le premier écran on saisit par copier coller un  article , un résumé , et même une image ! En téléchargement, les formats acceptés sont :   csv, doc, docx, gif, htm, html, jpg, jpeg, json, pdf, png, pptx, rtf, tif (tiff), txt, xlsx.

Le test ci dessous a été effectué avec le titre et le résumé de l’article  » Assessment of the toxicity of pesticides on honey bee drone fertility using laboratory and semi-field approaches: A case study of fipronil » (*) (figure 1).

Figure 1 -Un résumé d’article est inséré par copier/coller

Text Analyzer reconnait ensuite les termes présents dans le texte saisi et identifie les termes et demande à l’utilisateur de  modifier la priorisation par défaut ou de rajouter les termes. Les documents retrouvés avec les termes s’affichent dans la partie droite.

Text Analyzer effectue trois types d’analyses [3]

  • Les termes (concepts) présents dans le textes sont identifiés utilisant un vocabulaire contrôlé de plus de 40 000 termes  et un ensemble de règles sélectionnées par des humains.
  • Les concepts « sujets latents » sont inférés en utilisant  LDA (Latent Dirichlet allocation)  (**) appliqué sur les contenus JSTOR et avec les termes du vocabulaire controlé.
  • Les entités nommées (Named entities persons, locations, organizations) sont identifiés utilisant plusieurs outils dont Alchemy (de IBM), OpenCalais (de Thompson Reuters), le Stanford Named Entity Recognizer, et Apache OpenNLP et ensuite classés selon leur importance dans le texte.

Les topics sont présentés dans la partie en bas à gauche IDENTIFIED TERMS  (figure 2) dans la partie PRIORITIRIZED TERMS permet de de sélectionner les 5 concepts principaux utilisés pour la recherche des documents qui s’affiche à droite.

Figure 2 – Le résultat de Text Analyzer

Alex Humpreys rappelle que la recherche par mots clés  n’est pas parfaite et c’est la raison pour laquelle Text Analyzer a été développé [1]. Ce serait intéressant d’avoir accès au vocabulaire contrôlé de JSTOR (en linked data)  et pourquoi pas de pouvoir rajouter son propre vocabulaire pour les différentes traitements.

Sources :

  1. Humphreys, Alex. “On Beyond Keyword Search : Introducing Text Analyzer.” Accessed March 7, 2017. http://labs.jstor.org/blog/#!on_beyond_keyword_search-introducing_text_analyzer.
  2. Price, Gary. “A New Way to Search JSTOR: JSTOR Labs Introduces ‘Text Analyzer’ (Beta).” LJ INFOdocket. Accessed March 7, 2017. http://www.infodocket.com/2017/03/06/a-new-way-to-search-jstor-jstor-labs-introduces-text-analyzer-beta/.
  3. “JSTOR Labs Text Analyzer.” Accessed March 7, 2017. https://www.jstor.org/analyze/about.

(*) Kairo, Guillaume, Yannick Poquet, Haïthem Haji, Sylvie Tchamitchian, Marianne Cousin, Marc Bonnet, Michel Pelissier, André Kretzschmar, Luc P. Belzunces, and Jean-Luc Brunet. “Assessment of the Toxicity of Pesticides on Honey Bee Drone Fertility Using Laboratory and Semi-Field Approaches: A Case Study of Fipronil.” Environmental Toxicology and Chemistry, February 1, 2017, n/a-n/a. doi:10.1002/etc.3773.

(**) https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente

Google réalise un pas supplémentaire vers le Web sémantique avec Knowledge Graph

Google lance une nouvelle fonction de recherche sémantique : Knowledge Graph. cette fonction s’appuie sur une gigantesque base de données contenant à ce jour environ 500 millions d’objets, 3,5 milliards de faits et des liens entre ces objets. Déployée pour l’instant dans la version en anglais du site, la fonction Knowledge Graph se matérialise par l’affichage d’une colonne supplémentaire à droite de l’écran lors d’une recherche (encadré en rose dans la figure ci-dessous).


Bien que Knowledge Graph soit encore loin d’être exhaustif,  c’est une très bonne nouvelle dans la mesure où il permettra sans doute de vulgariser les apports du Web sémantique:

  • des recherches plus précises, capables de dépasser les problèmes d’homonymie ;
  • des recherches plus efficaces ;
  • plus de sérendipité (plus de chance de découvrir par « hasard » des résultats pertinents que l’on ne recherchait pas au départ).

Découvrez l’annonce de Knowledge Graph ici, et pour plus d’informations, cliquez .

Quelle interface de recherche dans les catalogues de bibliothèques ?

Une étude des forces et faiblesses de 2 interfaces de recherche, texte seul ou texte + facettes, menée auprès d’utilisateurs des bibliothèques universitaires de Caroline du Nord, montre la nette préférence de ceux-ci (36/40), et en particulier des utilisateurs novices, pour l’interface à facettes qui permet, outre une recherche plus rapide, une aide visuelle pour évaluer la pertinence des résultats obtenus.
Ramdeen, S. and Hemminger, B. M. (2011), A tale of two interfaces: How facets affect the library catalog search. Journal of the American Society for Information Science and Technology. doi: 10.1002/asi.21689

Echoes, un métamoteur mashup

Echoes est un métamoteur permettant de créer une page web composite à partir des réponses à une recherche en temps réel dans Google news, Google blog, Yahoo images, Bing, Wikipedia (en), Twitter (et j’en oublie peut-être).

L’utilisateur peut par ailleurs ajouter des flux RSS,  des commentaires, des liens, et partager la page ainsi créée.

http://echoes.kazulo.com/

Vu dans Brainsfeed – Intelligence Stratégique et Veille