Automatisation de la recherche des URLs d’un lot d’articles

Je voudrais trouver automatiquement les URL d’un grand nombre d’articles dont j’ai le DOI, savoir si j’y ai accès et quels sont les formats proposés (html, xml, pdf). Quel est le service le plus approprié, SFX ou Crossref, en terme de complexité de l’API et de richesse des réponses ?

INRA-QR-IST-LOGO-50

Pour trouver l’URL d’un article connaissant le DOI,  on peut interroger https://www.doi.org/.  Pour rechercher l’article via le DOI et vérifier les droits d’accès, à l’Inra, le service le plus approprié est CitationLinker de SFX mais la vérification doit être faite DOI par DOI, sans possibilité d’automatisation. SFX ne permet pas de sortie en nombre.

A l’Inra, lorsque le contrôle du login/mot de passe Ldap donne accès au pdf, l’ayant droit n’a pas toujours accès au format xml. Le format xml peut être récupéré via des API en vue de fouille de textes (voir par exemple : http://api.plos.org/text-and-data-mining/). Toutefois, pour les éditeurs avec lesquels l’Inra est lié par des licences, les téléchargements en grand nombre ne sont pas autorisés (voir https://www6.inra.fr/reselec/S-informer/Droits-et-devoirs-des-utilisateurs).

CrossRef est l’agence d’enregistrement de DOIs mise en place par une association d’éditeurs. Cette agence ne dégage pas de  profit mais certains services sont payants. L’INRA ne souscrit pas aux services payants de CrossRef (voir une question/réponse de novembre 2018 sur ce sujet), il en utilise le service gratuit API OpenURL  pour le résolveur de liens SFX. CrossRef propose également une REST API qui expose diverses informations (métadonnées bibliographiques, données de financement, informations sur les licences, liens en texte intégral, iDs ORCID, résumés, métadonnées CrossMark). Nous ne pouvons pas vous apporter d’éléments en ce qui concerne la complexité de l’API et la richesse des réponses.

Istex (corpus de littérature scientifique à destination de l’Enseignement Supérieur et la Recherche) via son API peut vous permettre des téléchargements en vue de text mining : voir à ce propos  les usages TDM d’Istex. En revanche, il ne pourra s’agir que des archives de revues (antériorité variable selon les éditeurs). Pour la partie courante, comme évoqué plus haut, les téléchargements en grand nombre ne sont pas autorisés.

 

Ce contenu a été publié dans Recherche documentaire. Vous pouvez le mettre en favoris avec ce permalien.