Archives par étiquette : text mining

Voyant tools : un environnement en ligne d’analyse de textes

voyanttool

Voyant Tools est un environnement en ligne de lecture et d’analyse de textes complété avec des outils de visualisation. Il est  hébergé sur la plateforme Huma-Num, une très grande infrastructure de recherche (TGIR) en humanité numérique qui propose  des services et outils pour traiter les données tout au au long de leur cycle de vie.

Fonctionnement

il suffit d’insérer des urls ou des documents pour pouvoir accéder automatiquement à une interface complète d’analyse : classement des mots les plus fréquents nuage de mots , contexte, etc. Il est possible de choisir et modifier une liste des mots qui ne doivent pas apparaître (stoplist).

La liste d’outils  disponibles est impressionnante http://voyant.tools.huma-num.fr/docs/#!/guide/tools. Un guide d’utilisation est disponible. Chaque corpus est sauvegardé avec une URL disponible pour y accéder. Il est possible de modifier le corpus mais dans ce cas l’URL change.

Voici un exemple d’analyse sur la consultations sur la consultation du Projet de loi pour une République numérique https://www.republique-numerique.fr/project/projet-de-loi-numerique/consultation/consultation.
voyanttoolexemple

 

Accès à Voyant Tools : http://voyant.tools.huma-num.fr/

voir aussi :
Deschamps,Christophe. 2016. Voyant Tools, un puissant service de text mining en open source. 5 février 2016 . Outils froids.  http://www.outilsfroids.net/2016/02/voyant-tools-un-puissant-service-de-text-mining-en-open-source/

etcML, un outil gratuit des chercheurs de Stanford pour l’analyse textuelle

EtcML =Easy Text Classification with Machine learning.

http://www.etcml.com/

EtcML se présente comme un outil web mis gratuitement à disposition par les chercheurs de l’unité de Stanford pour analyser les textes tout en améliorant le processus d’apprentissage. Il permet aussi de prédire avec des « sentiments » comme positif / négatif ou encore de classer des informations à partir d’une recherche dans Twitter ou dans un ensemble de données textuelles.

La première étape demande la préparation de données

Le site explique comment créer et préparer un jeu de données textuelles (avec ou sans tag). Il est également possible de créer des données à partir de recherches dans Twitter par mot-clé ou hashtag. Les jeux de données déposés sur le site peuvent être publics.

La deuxième étape propose de créer ou de choisir un « classifier » qui va séparer les données.

Enfin la troisième étape « train » consiste à améliorer le « classifier » par l’apprentissage.

Ci dessous, un exemple avec une recherche sur « Agroecology » sur Twitter :

Source  : Stanford Scientists Put Free Text-Analysis Tool on the Web | Engineering. January 30th 2014. Accessed February 6, 2014. http://engineering.stanford.edu/research-profile/stanford-scientists-put-free-text-analysis-tool-web.

Crossref va lancer Prospect : un service de text mining et data mining

Le service de data mining et text mining de Crossref, Propect, a été approuvé en novembre et sera lancé en 2014. Le pilote est  déjà disponible.

Il y aura deux aspects à ce service :

  • une API  TDM (pour texte standard pour le text mining et le data mining) qui permettra aux chercheurs de demander le texte intégral au site de l’éditeur sous une forme standard.
  • une bibliothèque des conditions d’utilisations pour les éditeurs qui souhaitent que les chercheurs acceptent des conditions d’utilisation. Ces conditions d’utilisation ne sont pas requises quand les documents sont en open access ou quand les chercheurs font partie d’une organisation abonnée à la revue ou aux contenus de l’éditeur.

Pour les informations techniques voir :

Sources :

Fouille de texte et publications savantes

Le Publishing Research Consortium a publié en février un guide sur la fouille de texte appliquée aux publications savantes : « Guide to text mining and scholarly publishing« . Ce document s’adresse à des lecteurs non-experts. Il présente de façon simple ce qu’est la fouille de texte et quels en sont les enjeux. Il donne des indications de base pour commencer dans ce domaine, que l’on soit chercheur (comment sélectionner ses sources, choisir un outil d’extraction…) ou éditeur (pourquoi permettre l’accès aux données, faire du text mining sur ses propres sources pour faciliter le travail des chercheurs, proposer des mash-ups, permettre la recherche sémantique…). Trois études de cas sont présentées : SureChem, BrainMap.org et Relay Technology Management Inc. Un glossaire est présent en fin de document.