Archives par étiquette : analyse de contenu

Voyant tools : un environnement en ligne d’analyse de textes

voyanttool

Voyant Tools est un environnement en ligne de lecture et d’analyse de textes complété avec des outils de visualisation. Il est  hébergé sur la plateforme Huma-Num, une très grande infrastructure de recherche (TGIR) en humanité numérique qui propose  des services et outils pour traiter les données tout au au long de leur cycle de vie.

Fonctionnement

il suffit d’insérer des urls ou des documents pour pouvoir accéder automatiquement à une interface complète d’analyse : classement des mots les plus fréquents nuage de mots , contexte, etc. Il est possible de choisir et modifier une liste des mots qui ne doivent pas apparaître (stoplist).

La liste d’outils  disponibles est impressionnante http://voyant.tools.huma-num.fr/docs/#!/guide/tools. Un guide d’utilisation est disponible. Chaque corpus est sauvegardé avec une URL disponible pour y accéder. Il est possible de modifier le corpus mais dans ce cas l’URL change.

Voici un exemple d’analyse sur la consultations sur la consultation du Projet de loi pour une République numérique https://www.republique-numerique.fr/project/projet-de-loi-numerique/consultation/consultation.
voyanttoolexemple

 

Accès à Voyant Tools : http://voyant.tools.huma-num.fr/

voir aussi :
Deschamps,Christophe. 2016. Voyant Tools, un puissant service de text mining en open source. 5 février 2016 . Outils froids.  http://www.outilsfroids.net/2016/02/voyant-tools-un-puissant-service-de-text-mining-en-open-source/

Extraction d’affiliations structurées de la littérature scientifique

Le dernier numéro de  D-Lib Magazine présente un article sur un outil  pour extraire les métadonnées structurés des articles scientifiques sous une forme digitale.  Le logiciel CERMINE  est capable d’extraire les auteurs et leurs affiliations d’une publication donnée, d’établir des relations entre auteurs et affiliations et de présenter les métadonnées extraites dans un format structuré lisible par les machines. L’extraction des affiliations s’appuie sur un workflow modulaire, utilise du « machine learning » supervisé et des techniques basées sur des heuristiques. Les résultats ont été évalués : l’extraction d’affiliation est correcte à 84,3% et leur analyse à 92,1%.

Cet article décrit le workflow pour  l’extraction d’affiliations en founissant des détails sur les différentes étapes (voir la figure 1). Il compare aussi  cette solution avec les approches similaires et décrit la méthode d’évaluation et ses résultats. Le logiciel CERMINE et toutes ses fonctionnalités d’extraction et d’analyse d’affiliations est disponible sous une licence open-source.

 Figure 1: Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document's fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed.

Figure 1 from the article : Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document’s fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed. with the authors authorization for use this figure with a CC 4.0 licence.

Source :

Tkaczyk, Dominika; Tarnawski, Bartosz; Bolikowski  Łukasz  (2015). Structured Affiliations Extraction from Scientific Literature. D-Lib Magazine, 21 (11/12). DOI: 10.1045/november2015-tkaczyk

CERMINE : http://cermine.ceon.pl