Outil de minage de texte pour vérifier la similarité entre deux documents

Bonjour avons nous à disposition un outil de minage de texte pour vérifier la similarité entre deux documents ?

INRA-QR-IST-LOGO-50

Concernant votre demande de comparaison de documents entre eux, nous n’avons actuellement pas connaissance de logiciels permettant de faire ressortir “des morceaux de phrases” identiques, de trouver des similarités entre des “parties de texte”.

Il existe cependant plusieurs outils permettant de détecter les différences entre documents PDF.
Outil gratuit :

Outils payants :

Nous avons partiellement testé Acrobat XI et ComparePDF, avec peu de succès, car un taux de similarité entre les textes insuffisant. Ces outils sont plus particulièrement adaptés pour la détection de différences entre versions.

Rappelons pour mémoire la différence avec les outils utilisés pour la détection de plagiat qui opèrent une comparaison entre un document et une base de référence de documents en ligne.
Vous trouverez sur ce blog plusieurs articles à ce sujet, fournissant des comparatifs de logiciels, ainsi que la méthodologie d’utilisation.
https://ist.blogs.inra.fr/testquestionreponses/2014/01/10/logiciel-pour-la-recherche-de-plagiat-dans-les-publications-scientifiques/
https://ist.blogs.inra.fr/testquestionreponses/2012/10/30/plagiat-autoplagiat/
Le blog de l’Observatoire des Technologies vous propose également une liste de dix outils de vérification : https://ist.blogs.inra.fr/technologies/2014/11/25/dix-outils-de-verification-de-plagiat-en-ligne/
Voir aussi : le comparatif effectué en 2012 par l’Université de Pau (https://webcampus.univ-pau.fr/fichiers_webcampus/divers/Logicielsantiplagiat.pdf).

A l’Inra, l’unité INRA-LISIS (ex-SenS) (http://www.inra-ifris.org/)  a développé une plateforme d’analyse textuelle : CorText (http://ifris.org/plateforme-digitale-cortext/), mais pas d’outil répondant à votre besoin particulier.

Le pôle Gestion des Connaissances de la DIST utilise la plateforme d’analyse sémantique et de text-mining Luxid, mais nous a indiqué que cet outil n’est pas adapté pour ce type d’extraction.

D’après nos recherches sur internet, on trouve que des informaticiens spécialistes du TAL (traitement automatisé du langage) développent des algorithmes pour établir les indices de similitudes entre textes, mais ils ne font pas état d’outils finaux réellement fonctionnels. Voir par exemple :

Ce contenu a été publié dans Technologies en IST. Vous pouvez le mettre en favoris avec ce permalien.