Archives par étiquette : édition scientifique

Persée ouvre son portail de données liées http://data.persee.fr/

Le portail Persée regroupe 650 000 publications scientifiques accessibles librement et gratuitement et  permet une recherche au travers d’outils de navigation exploitant trois index (documents, illustrations et auteurs) et proposant des fonctionnalités de tri par facettes. L’Unité Mixte de Service Persée propose maintenant l’exposition de ses données au format RDF au travers de son triplestore data.persee.fr.

Il ne s’agit toutefois pas uniquement d’une exposition des données, le portail data.persee.fr. se distingue par :

Des alignements avec des référentiels nationaux et internationaux qui « permettent de questionner non plus seulement les données de Persée, mais également celles proposées par IdRef, DBpedia, data.bnf.fr, le Cairo Gazetteer, GBIF, … en une seule et même requête. » (voir le document source cité en référence)

Plusieurs modes d’exploration sont disponibles : le sparql endpoint pour les initiés et l’outil Sparklis qui permettra au plus grand nombre de formuler ses requêtes en langage naturel, sans connaissance a priori des contenus et de leurs modèles.

Des outils de visualisation des données et jeux de données.

Des services d’accompagnement : tutoriels, formations et des lieux d’interaction avec Persée permettant la co-construction de jeux de données et d’outils pour les exploiter.

Le site http://data.persee.fr/

 

Les contacts pour ce projet sont :

  • Nathalie Fargier | nathalie.fargier@persee.fr | 04 26 73 14 80
  • Viviane Boulétreau | viviane.bouletreau@persee.fr | 04 26 73 14 82

Sources : Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées. 10 février 2017.  http://www.persee.fr/documents/10099/0/Annoncesortiedata.pdf/944c70b4-bd11-4f02-9053-570c44e44577. consulté le 10 févier 2017.

Voir aussi les tutoriels sur le site Canalu.tv : https://www.canal-u.tv/producteurs/persee/data_persee_fr.

 

L’édition scientifique et les livres électroniques au format Epub3

Elsevier, le principal éditeur mondial de revues et de livres scientifiques, a annoncé récemment qu’il publiera des livres électroniques au format Epub3 et convertira la plupart des livres du format Epub2 vers Epub3. Cette annonce pourrait avoir des répercutions chez les autres éditeurs scientifiques.

Ce format est développé et maintenu par IDPF (Internal Digital publishing Forum) qui selon le site Actualitté :

assure d’ailleurs tout son soutien à l’éditeur, pour nous assurer que l’EPUB continue de s’améliorer, afin de servir les besoins primordiaux dans la communication des éléments techniques et scientifiques ». En somme, être capable d’afficher une grande variété de contenus sur tous les écrans, en s’appuyant sur les possibilités techniques offertes par l’HTML5, qui commence à devenir la règle sur le Web.

Elsevier  s’intéresse particulièrement à fournir des contenus enrichis par :

  • des supports pour les éléments interactifs (auto évaluation, quizz)  et audiovisuels (audio et vidéo),
  • des tables des matières et listes des figures ou tableaux améliorées pour la navigation,
  • une meilleure visualisation des pieds de page, citation et références avec fenêtrage de type pop-up,
  • le support du MathML pour l’affichage des formules mathématiques.

L’ IDPF incite les éditeurs à utiliser ce format et a ouvert début avril le site EPubZone.org pour les  actualités et échanges communautaires autour de l’EPUB.

Sources
« Elsevier Embraces EPUB3 Format, Ensuring More Enriched and Interactive eBook Experience for Readers — AMSTERDAM, April 22, 2014 /PRNewswire/ –.” Accessed April 23, 2014. http://www.prnewswire.com/news-releases/elsevier-embraces-epub3-format-ensuring-more-enriched-and-interactive-ebook-experience-for-readers-256164711.html.
Actualitté. “Elsevier Adopte l’EPUB3 Comme Standard Pour Ses Manuels.” Accessed April 24, 2014. http://www.actualitte.com/usages/elsevier-adopte-l-epub3-comme-standard-pour-ses-manuels-49690.htm.
Actualitté. “EPUBZone, Nouveau Site Pour l’Internal Digital Publishing Forum.” Accessed April 24, 2014. http://www.actualitte.com/international/epubzone-nouveau-site-pour-l-internal-digital-publishing-forum-49458.htm.

Crossref va lancer Prospect : un service de text mining et data mining

Le service de data mining et text mining de Crossref, Propect, a été approuvé en novembre et sera lancé en 2014. Le pilote est  déjà disponible.

Il y aura deux aspects à ce service :

  • une API  TDM (pour texte standard pour le text mining et le data mining) qui permettra aux chercheurs de demander le texte intégral au site de l’éditeur sous une forme standard.
  • une bibliothèque des conditions d’utilisations pour les éditeurs qui souhaitent que les chercheurs acceptent des conditions d’utilisation. Ces conditions d’utilisation ne sont pas requises quand les documents sont en open access ou quand les chercheurs font partie d’une organisation abonnée à la revue ou aux contenus de l’éditeur.

Pour les informations techniques voir :

Sources :

Pourquoi les métadonnées des PDF éditeurs sont elles si pauvres ?

C’est la traduction du titre d’un billet sur le blog de Ross Mounce.

Les métadonnées embarquées (embedded metadata) incluses dans les documents sont un eldorado pour les systèmes ou utilisateurs  ayant à gérer ce type de données. On peut les récupérer automatiquement avec des outils comme Endnote, Medeley ou Zotero pour les utilisateurs finaux ou par d’autres applications pour les dépôts dans les archives ouvertes les différents catalogues bibliographiques, les moteurs de recherche, les réseaux sociaux….

Récupérer les métadonnées produites dès la création du document  permet de disposer de données fiables et de bonne qualité si le document est une publication scientifique et que l’éditeur  scientifique prend soin de produire ces données correctement. Le format des données embarquées dans le PDF est  XMP (Adobe’s Extensible Metadata Platform) qui s’appuie sur le Dublin Core et qui est devenue une norme ISO en 2012.

L’auteur propose une analyse des métadonnées de quelques publications.

L’échantillon a porté sur des articles de 21 éditeurs, publiés pour la plupart en 2011,  dont : AAAS (Science), Wiley-Blackwell,  BMJ, Cambridge Journals Online, CSIRO, Elsevier,  Hindawi, National Academy of Sciences (PNAS), NPG, NRC Research Press, PLOS, Royal Society, SAGE, Springer-Verlag, Taylor & Francis …

11 métadonnées différentes ont été analysées dont :  Creator, Title, Subject, Author, Pages, Keywords.

Les résultats ne sont pas très satisfaisants. Sur 70 articles en pdf analysés, seulement 8 possèdent des métadonnées complètes sur la publication et 50 %  le nom des auteurs. Les résultats complets de l’enquête sont disponibles sur figshare.

Il semble cependant que les résultats pourraient être meilleurs si l’outil utilisé pour lire les pdf avait été différent. L’auteur a utilisé PDFinfo, mais on lui conseille d’utiliser un autre outil Exiftool.

La question reste cependant posée : pourquoi si peu de métadonnées embarquées dans les articles scientifiques en PDF ? que l’on peut aussi formuler autrement :  « quelles sont les avantages des éditeurs à mettre à disposition ces métadonnées ? » (voir le commentaire de Rod Page sur le billet cité).

 

source :

Pour en savoir plus :