Archives par étiquette : Cermine

Extraction d’affiliations structurées de la littérature scientifique

Le dernier numéro de  D-Lib Magazine présente un article sur un outil  pour extraire les métadonnées structurés des articles scientifiques sous une forme digitale.  Le logiciel CERMINE  est capable d’extraire les auteurs et leurs affiliations d’une publication donnée, d’établir des relations entre auteurs et affiliations et de présenter les métadonnées extraites dans un format structuré lisible par les machines. L’extraction des affiliations s’appuie sur un workflow modulaire, utilise du « machine learning » supervisé et des techniques basées sur des heuristiques. Les résultats ont été évalués : l’extraction d’affiliation est correcte à 84,3% et leur analyse à 92,1%.

Cet article décrit le workflow pour  l’extraction d’affiliations en founissant des détails sur les différentes étapes (voir la figure 1). Il compare aussi  cette solution avec les approches similaires et décrit la méthode d’évaluation et ses résultats. Le logiciel CERMINE et toutes ses fonctionnalités d’extraction et d’analyse d’affiliations est disponible sous une licence open-source.

 Figure 1: Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document's fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed.

Figure 1 from the article : Overview of the affiliation extraction algorithm. At the beginning the basic structure is extracted from the PDF file, then document’s fragments are classified. Next, detected fragments containing authors and affiliations are split and matched together. Finally, raw affiliation strings are parsed and the resulting XML record is formed. with the authors authorization for use this figure with a CC 4.0 licence.

Source :

Tkaczyk, Dominika; Tarnawski, Bartosz; Bolikowski  Łukasz  (2015). Structured Affiliations Extraction from Scientific Literature. D-Lib Magazine, 21 (11/12). DOI: 10.1045/november2015-tkaczyk

CERMINE : http://cermine.ceon.pl