Archives de catégorie : Analyse de texte

Text Analyzer, une autre manière de rechercher des textes dans Jstor

Le blog ‘Jstor Labs’ publie, ce 6/03/17, un billet présentant ‘Text analyser‘, un nouvel outil (en mode béta) de recherche de livres ou d’articles dans la base JSTOR. (Lu sur echosdoc). [2]

Dans le premier écran on saisit par copier coller un  article , un résumé , et même une image ! En téléchargement, les formats acceptés sont :   csv, doc, docx, gif, htm, html, jpg, jpeg, json, pdf, png, pptx, rtf, tif (tiff), txt, xlsx.

Le test ci dessous a été effectué avec le titre et le résumé de l’article  » Assessment of the toxicity of pesticides on honey bee drone fertility using laboratory and semi-field approaches: A case study of fipronil » (*) (figure 1).

Figure 1 -Un résumé d’article est inséré par copier/coller

Text Analyzer reconnait ensuite les termes présents dans le texte saisi et identifie les termes et demande à l’utilisateur de  modifier la priorisation par défaut ou de rajouter les termes. Les documents retrouvés avec les termes s’affichent dans la partie droite.

Text Analyzer effectue trois types d’analyses [3]

  • Les termes (concepts) présents dans le textes sont identifiés utilisant un vocabulaire contrôlé de plus de 40 000 termes  et un ensemble de règles sélectionnées par des humains.
  • Les concepts « sujets latents » sont inférés en utilisant  LDA (Latent Dirichlet allocation)  (**) appliqué sur les contenus JSTOR et avec les termes du vocabulaire controlé.
  • Les entités nommées (Named entities persons, locations, organizations) sont identifiés utilisant plusieurs outils dont Alchemy (de IBM), OpenCalais (de Thompson Reuters), le Stanford Named Entity Recognizer, et Apache OpenNLP et ensuite classés selon leur importance dans le texte.

Les topics sont présentés dans la partie en bas à gauche IDENTIFIED TERMS  (figure 2) dans la partie PRIORITIRIZED TERMS permet de de sélectionner les 5 concepts principaux utilisés pour la recherche des documents qui s’affiche à droite.

Figure 2 – Le résultat de Text Analyzer

Alex Humpreys rappelle que la recherche par mots clés  n’est pas parfaite et c’est la raison pour laquelle Text Analyzer a été développé [1]. Ce serait intéressant d’avoir accès au vocabulaire contrôlé de JSTOR (en linked data)  et pourquoi pas de pouvoir rajouter son propre vocabulaire pour les différentes traitements.

Sources :

  1. Humphreys, Alex. “On Beyond Keyword Search : Introducing Text Analyzer.” Accessed March 7, 2017. http://labs.jstor.org/blog/#!on_beyond_keyword_search-introducing_text_analyzer.
  2. Price, Gary. “A New Way to Search JSTOR: JSTOR Labs Introduces ‘Text Analyzer’ (Beta).” LJ INFOdocket. Accessed March 7, 2017. http://www.infodocket.com/2017/03/06/a-new-way-to-search-jstor-jstor-labs-introduces-text-analyzer-beta/.
  3. “JSTOR Labs Text Analyzer.” Accessed March 7, 2017. https://www.jstor.org/analyze/about.

(*) Kairo, Guillaume, Yannick Poquet, Haïthem Haji, Sylvie Tchamitchian, Marianne Cousin, Marc Bonnet, Michel Pelissier, André Kretzschmar, Luc P. Belzunces, and Jean-Luc Brunet. “Assessment of the Toxicity of Pesticides on Honey Bee Drone Fertility Using Laboratory and Semi-Field Approaches: A Case Study of Fipronil.” Environmental Toxicology and Chemistry, February 1, 2017, n/a-n/a. doi:10.1002/etc.3773.

(**) https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente

Extraction d’affiliations structurées de la littérature scientifique

Le dernier numéro de  D-Lib Magazine présente un article sur un outil  pour extraire les métadonnées structurés des articles scientifiques sous une forme digitale.  Le logiciel CERMINE  est capable d’extraire les auteurs et leurs affiliations d’une publication donnée, d’établir des relations entre auteurs et affiliations et de présenter les métadonnées extraites dans un format structuré lisible par les machines. L’extraction des affiliations s’appuie sur un workflow modulaire, utilise du « machine learning » supervisé et des techniques basées sur des heuristiques. Les résultats ont été évalués : l’extraction d’affiliation est correcte à 84,3% et leur analyse à 92,1%.

Cet article décrit le workflow pour  l’extraction d’affiliations en founissant des détails sur les différentes étapes (voir la figure 1). Il compare aussi  cette solution avec les approches similaires et décrit la méthode d’évaluation et ses résultats. Le logiciel CERMINE et toutes ses fonctionnalités d’extraction et d’analyse d’affiliations est disponible sous une licence open-source.

 Figure 1: Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document's fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed.

Figure 1 from the article : Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document’s fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed. with the authors authorization for use this figure with a CC 4.0 licence.

Source :

Tkaczyk, Dominika; Tarnawski, Bartosz; Bolikowski  Łukasz  (2015). Structured Affiliations Extraction from Scientific Literature. D-Lib Magazine, 21 (11/12). DOI: 10.1045/november2015-tkaczyk

CERMINE : http://cermine.ceon.pl

Exploration de corpus : outils et pratiques

Site Web Exploration de corpus : outils et pratiques

Le groupe de travail Exploration de corpus, du consortium Corpus Écrits, propose un site web sur les usages d’exploitation de corpus les plus répandus dans la communauté francophone. Chaque pratique recensée (alignement, visualisation topologique, mettre au jour les spécificités d’une partition, explorer la structure d’un corpus, cooccurences, segments répétés, concordance et annotation) est (ou sera) documentée et articulée au type de corpus étudié, à l’objectif de recherche et aux outils de traitement de corpus mobilisés.

15 outils sont actuellement signalés, accompagnés d’une fiche descriptive de l’outil (avec en particulier le lien vers le manuel d’utilisation), une fiche sur les pratiques et les usages et des exemples d’utilisateurs institutionnels. Un formulaire permet à tous de proposer un nouvel outil.

Ce site s’adresse aux linguistes et plus généralement, aux chercheurs intéressés par un travail sur corpus.

Vu sur LaLIST

etcML, un outil gratuit des chercheurs de Stanford pour l’analyse textuelle

EtcML =Easy Text Classification with Machine learning.

http://www.etcml.com/

EtcML se présente comme un outil web mis gratuitement à disposition par les chercheurs de l’unité de Stanford pour analyser les textes tout en améliorant le processus d’apprentissage. Il permet aussi de prédire avec des « sentiments » comme positif / négatif ou encore de classer des informations à partir d’une recherche dans Twitter ou dans un ensemble de données textuelles.

La première étape demande la préparation de données

Le site explique comment créer et préparer un jeu de données textuelles (avec ou sans tag). Il est également possible de créer des données à partir de recherches dans Twitter par mot-clé ou hashtag. Les jeux de données déposés sur le site peuvent être publics.

La deuxième étape propose de créer ou de choisir un « classifier » qui va séparer les données.

Enfin la troisième étape « train » consiste à améliorer le « classifier » par l’apprentissage.

Ci dessous, un exemple avec une recherche sur « Agroecology » sur Twitter :

Source  : Stanford Scientists Put Free Text-Analysis Tool on the Web | Engineering. January 30th 2014. Accessed February 6, 2014. http://engineering.stanford.edu/research-profile/stanford-scientists-put-free-text-analysis-tool-web.

Crossref va lancer Prospect : un service de text mining et data mining

Le service de data mining et text mining de Crossref, Propect, a été approuvé en novembre et sera lancé en 2014. Le pilote est  déjà disponible.

Il y aura deux aspects à ce service :

  • une API  TDM (pour texte standard pour le text mining et le data mining) qui permettra aux chercheurs de demander le texte intégral au site de l’éditeur sous une forme standard.
  • une bibliothèque des conditions d’utilisations pour les éditeurs qui souhaitent que les chercheurs acceptent des conditions d’utilisation. Ces conditions d’utilisation ne sont pas requises quand les documents sont en open access ou quand les chercheurs font partie d’une organisation abonnée à la revue ou aux contenus de l’éditeur.

Pour les informations techniques voir :

Sources :

GlobFree : un nouveau moteur de recherche basé sur l’intelligence artificielle

Globfree permet de trouver des articles scientifiques à partir de l’analyse sémantique d’un texte en le comparant aux articles contenus dans différentes sources : Pubmed, Springer, Jstor, Pubmed Central, Nature, Trove, Cambridge University Press et Arxiv (235 millions d’articles scientifiques annoncés). Ce système d’analyse fait également de Globfree un outil de détection de plagiat.

L’utilisation de Globfree est gratuite mais nécessite un enregistrement préalable.

La recherche s’effectue en saisissant non pas des mots clés mais un texte compris en 100 et 10 000 caractères.

Saisie du texte

Saisie du texte et choix des sources

Les premiers résultats apparaissent au bout de quelques minutes, mais la recherche complète peut s’effectuer en 24 heures. La copie d’écran ci-dessous montre une recherche en cours d’exécution avec, pour chacune des sources sélectionnées, le temps de traitement restant et le nombre de documents traités. L’hexagone rouge indique qu’aucun document pertinent n’a été trouvé (ici dans PubMed Central).

recherche en cours

Recherche en cours d’exécution

Les notices correspondant aux articles jugés pertinents sont affichées dans un format assez pauvre, comportant uniquement le titre (lié au document source), le résumé, l’intitulé et l’ISSN du périodique. Aucune possibilité n’est offerte pour réduire le nombre de réponses après la première recherche.
Un indice de similarité est indiqué pour chaque article retenu, mais l’algorithme utilisé par Globfree pour le calculer n’est pas précisé. Les premiers tests effectués montrent que cette pertinence n’est pas garantie, les articles retenus n’ayant souvent rien à voir avec l’article proposé au départ. Il serait donc utile de pouvoir contraindre l’indice de similarité dans une fourchette de valeurs.

Résultats

Affichage des résultats obtenus chez Springer

Le seul export proposé est au format rtf (vers un traitement de textes) donc peu structuré et difficile à exploiter. Ceci est d’autant plus regrettable que le nombre d’articles proposé par GlobFree peut être important et nécessiter le traitement ultérieur du corpus obtenu.

Globfree indique avoir également l’ambition de devenir un réseau social scientifique (comme ResearchGate par exemple), mais les fonctionnalités dans ce domaine sont, pour le moment, très limitées.

Enfin, certaines pages du site (Explorer, pages d’aide) conduisent carrément à des impasses.

GlobFree, projet ambitieux et novateur, ne semble pas encore totalement aboutit (la société Globfree Ltd est une société anglaise récente, enregistrée en juillet 2013) et doit gagner en maturité pour rencontrer son public.

Fouille de texte et publications savantes

Le Publishing Research Consortium a publié en février un guide sur la fouille de texte appliquée aux publications savantes : « Guide to text mining and scholarly publishing« . Ce document s’adresse à des lecteurs non-experts. Il présente de façon simple ce qu’est la fouille de texte et quels en sont les enjeux. Il donne des indications de base pour commencer dans ce domaine, que l’on soit chercheur (comment sélectionner ses sources, choisir un outil d’extraction…) ou éditeur (pourquoi permettre l’accès aux données, faire du text mining sur ses propres sources pour faciliter le travail des chercheurs, proposer des mash-ups, permettre la recherche sémantique…). Trois études de cas sont présentées : SureChem, BrainMap.org et Relay Technology Management Inc. Un glossaire est présent en fin de document.

Agrotagger: indexation automatique de PDFs avec le thesaurus Agrovoc

Le site  Agrotagger 2.0 en version bêta (démonstration) permet de « tagger » ou d’indexer automatiquement, en anglais, vos documents en PDF ou en format Word à l’aide du thesaurus Agrovoc de la FAO. Il utilise un extracteur de terme KEA (qui semble un peu ancien). Les résultats (mots-clés) sont présentés  sous la forme de triplets RDF avec des renvois dans Agrovoc et un nuage de tags des mots clés.
http://agrovoc.mimos.my:58301/AgroTagger/

Voici une démonstration sur le PDF de l’article : Laurent Bréhélin L.; Gascuel O.; Martin O. (2008) Using repeated measurements to validate hierarchical gene clusters. Bioinformatics 24 (5): 682-688. doi : 10.1093/bioinformatics/btn017. Les mots clés trouvés sont les suivants :

Tags Agrovoc URIs
genes http://aims.fao.org/aos/agrovoc/c_27532
gene expression http://aims.fao.org/aos/agrovoc/c_27527
Bioinformatics http://aims.fao.org/aos/agrovoc/c_37958
Animal husbandry http://aims.fao.org/aos/agrovoc/c_25746
genomes http://aims.fao.org/aos/agrovoc/c_3224
Cell differentiation http://aims.fao.org/aos/agrovoc/c_2265
operations research http://aims.fao.org/aos/agrovoc/c_5364
Experimental design http://aims.fao.org/aos/agrovoc/c_29466
transcription http://aims.fao.org/aos/agrovoc/c_35127
Sampling http://aims.fao.org/aos/agrovoc/c_6774

Un autre service est développé  par la FAO dans le cadre du projet agINFRA, utilisant le Framework d’indexation Maui. Une version de test est disponible :  http://maui-indexer.appspot.com/

Le résultat sur le même article est le suivant

Input document : Vol. 24 no. 5 2008, pages 682–688 BIOINFORMATICS doi:10.1093/bioinformatics/btn017 Gene expression Using repeated measurements to validate hierarchical gene clusters.

Source : voir http://aims.fao.org/agrotagger

TXM : textométrie, analyse quantitative et qualitative de corpus textuels numériques

La plateforme TXM aide à construire et à analyser tout type de corpus textuel numérique éventuellement étiqueté et structuré. Elle est diffusée sous forme de logiciel Windows ou Linux et sous forme d’application web hébergée sur un serveur :

TXM | Développement ESR PLUME.