Archives par étiquette : traitement des données

Exploration de corpus : outils et pratiques

Site Web Exploration de corpus : outils et pratiques

Le groupe de travail Exploration de corpus, du consortium Corpus Écrits, propose un site web sur les usages d’exploitation de corpus les plus répandus dans la communauté francophone. Chaque pratique recensée (alignement, visualisation topologique, mettre au jour les spécificités d’une partition, explorer la structure d’un corpus, cooccurences, segments répétés, concordance et annotation) est (ou sera) documentée et articulée au type de corpus étudié, à l’objectif de recherche et aux outils de traitement de corpus mobilisés.

15 outils sont actuellement signalés, accompagnés d’une fiche descriptive de l’outil (avec en particulier le lien vers le manuel d’utilisation), une fiche sur les pratiques et les usages et des exemples d’utilisateurs institutionnels. Un formulaire permet à tous de proposer un nouvel outil.

Ce site s’adresse aux linguistes et plus généralement, aux chercheurs intéressés par un travail sur corpus.

Vu sur LaLIST

Open data : apprendre à utiliser les données

L’École des Données est une version francophone du projet School of Data de l’Open Knowledge Foundation lancé en mai 2012, dont l’objectif est de donner plus de pouvoir à la société civile en enseignant les compétences nécessaires pour réutiliser des données disponibles librement.
L’école des données s’adresse à tous, aucun niveau de compétence n’est requis, et propose des cours complets, des recettes et astuces et des cas concrets à partir de données existantes.
Deux grandes parties sont disponibles pour le moment (« Les fondamentaux des données » et « Brève introduction sur le nettoyage des données« ) chacune comprenant plusieurs chapitres dans lesquels sont intégrés une partie de cours, des exercices (tâches rapides : 15 à 30 mn, ou plus longues : 1h) ainsi qu’une liste de lecture.
La participation de tous est encouragée pour collaborer à la traduction des contenus, à l’adaptation des cours au contexte français, au développement de nouveaux cours ou à l’animation du site.

Un outil vraiment agréable au premier abord !

Vu sur http://lalist.inist.fr/

Dublin Core : les logiciels sélectionnés par le DCMI

Le site du Dublin Core Metada Initiative publie une liste d’outils permettant des traitements documentaires sur le Dublin Core (extraction, génération, transformation) http://dublincore.org/tools/index.shtml.

Parmi ces outils on retrouve Talend , un outil ETL (Extract Transform Load) présenté lors de l’École Technique « Transformation des données documentaires ». Voir la présentation de Talend.

Dynamiser l'affichage de vos données avec Public Data explorer ?

Le site Abondance, nous signale que l’outil Public Data Explorer, basé sur un système racheté par Google en 2007, est maintenant disponible à tous les internautes (en version béta).

Après chargement et conversion au format Dataset Publishing Language (basé sur le format XML) des données proposées par l’internaute, celles-ci s’animent pour un rendu visuellement très intéressant (voir un exemple ici)

Simple gadget ou véritable « plus », l’avenir nous dira si cet outil s’impose aux chercheurs… et aux documentalistes pour présenter et analyser leurs données…