Extraction d’affiliations structurées de la littérature scientifique

Le dernier numéro de  D-Lib Magazine présente un article sur un outil  pour extraire les métadonnées structurés des articles scientifiques sous une forme digitale.  Le logiciel CERMINE  est capable d’extraire les auteurs et leurs affiliations d’une publication donnée, d’établir des relations entre auteurs et affiliations et de présenter les métadonnées extraites dans un format structuré lisible par les machines. L’extraction des affiliations s’appuie sur un workflow modulaire, utilise du « machine learning » supervisé et des techniques basées sur des heuristiques. Les résultats ont été évalués : l’extraction d’affiliation est correcte à 84,3% et leur analyse à 92,1%.

Cet article décrit le workflow pour  l’extraction d’affiliations en founissant des détails sur les différentes étapes (voir la figure 1). Il compare aussi  cette solution avec les approches similaires et décrit la méthode d’évaluation et ses résultats. Le logiciel CERMINE et toutes ses fonctionnalités d’extraction et d’analyse d’affiliations est disponible sous une licence open-source.

 Figure 1: Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document's fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed.

Figure 1 from the article : Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document’s fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed. with the authors authorization for use this figure with a CC 4.0 licence.

Source :

Tkaczyk, Dominika; Tarnawski, Bartosz; Bolikowski  Łukasz  (2015). Structured Affiliations Extraction from Scientific Literature. D-Lib Magazine, 21 (11/12). DOI: 10.1045/november2015-tkaczyk

CERMINE : http://cermine.ceon.pl

4 réflexions sur « Extraction d’affiliations structurées de la littérature scientifique »

    1. Dominika Tkaczyk

      Chère Diane, en effet, CERMINE et GROBID sont similaires et partagent les mêmes objectifs. Nous avons récemment publié un article plus long dans IJDAR, où, entre autres choses, nous avons comparé CERMINE avec quelques autres outils. Lisez l’article, s’il vous plaît, il est en accès libre (en anglais) : http://dx.doi.org/10.1007/s10032-015-0249-8

      Selon notre recherche, les deux CERMINE et GROBID ont été très fiable. CERMINE a eu légèrement plus de fonctionnalités. D’un autre côté, GROBID a été visiblement plus rapide.

      Paperity.org, qui se sont intéressés à la qualité de l’extraction de texte intégral, ont choisi CERMINE, après une évaluation indépendante. Cependant, nous serions heureux de voir plus d’évaluations indépendantes !

      Répondre
  1. Ping : Extraction d’affiliations structur&eacute...

  2. Ping : Extraction d’affiliations structur&eacute...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.