Archives par étiquette : moteur de recherche

Elsevier dataSearch : un nouveau moteur de recherche des données de la recherche

Ce moteur de recherche s’inscrit dans la stratégie de positionnement d’Elsevier sur les services pour la gestion des données de la recherche. Pour rappel,  en novembre 2015 apparaissait Mendeley Data, une fonctionnalité du logiciel Mendeley, racheté par Elsevier en 2013, pour stocker et diffuser des données.

Datasearch permet de chercher dans les entrepôts de données de recherche principaux mais aussi dans les supplementary data. L’outil est pour l’instant en version bêta donc encore sous développement.

En juin 2016 les sources indexées, quelquefois partiellement, étaient (voir la FAQ) :

Les données sont  récupérées à travers les API des différents sites ou  à partir d’une sauvegarde de la base qui a été fournie. A partir de ces sources, Datasearch  standardise les informations dans son modèle de données. La FAQ précise que toutes les données indexées sont en open data, sauf celles de Science Direct.

Une recherche dans Datasearch renvoie tous types de documents mais  une interface à facettes permet de sélectionner le type de document souhaité et les sources des données.

Les types de document qui correspondent aux données sont : Tabular Data, File Set, Raw Data et Statistical Data. La distinction ne semble pas évidente et n’est pas encore décrite.

datasearch

Un exemple de résultat de recherche sur DataSearch

Datasearch demande l’avis des utilisateurs sur les fonctionnalités ou améliorations possibles.

https://datasearch.elsevier.com/

sources :

 

Publications de l’USDA : nouvelle interface de recherche

USDA logoPubAg est une nouvelle interface de recherche, proposée par la National Agricultural Library (NAL), donnant accès aux publications scientifiques du Département américain de l’Agriculture (USDA). Plus de 40 000 articles sont déjà en ligne, les plus anciens datant de 1960. On retrouve un affinage classique par facettes parmi lesquelles l’accès libre au texte intégral (liens vers l’éditeur dans les autres cas). L’indexation utilise le thésaurus de la NAL NAL Thesaurus (NALT).

Vu sur : AIMS Newsletter no. 37, February 2015

Un nouveau moteur de recherche qui ne collecte pas vos données personnelles

swiwwcows1Source : “NetPublic » . Swisscows : Moteur de Recherche Qui Ne Collecte Pas Les Données Personnelles.” Accessed October 30, 2014. http://www.netpublic.fr/2014/10/swisscows-moteur-de-recherche-qui-ne-collecte-pas-les-donnees-personnelles/.

Netpublic.fr a publié un billet sur un nouveau moteur de recherche Swisscows.  lancé en Suisse en juin 2014 par Hulbee SA/. Ce moteur,  comme DuckDuckGo ne collecte aucune données personnelles. Il cite une analyse sur le blog de François Charlet  : Swisscows, un moteur de recherche 100% suisse qui ne collecte aucune donnée.

Le billet met en avant la recherche d’image « . L’internaute a la possibilité d’affiner ses résultats dans la partie supérieure et de recherche selon des critères spécifiques : aspect, taille, couleur, style, visage. Les images sont affichées en miniatures ou vignettes sur la page. »

La société Swisscows.ch affiche la garantie sur sécurité des données garantie, l’utilisation de technologies  innovantes et la reconnaissance sémantique des informations qui rendent la recherche plus intuitive.

Cependant la démarche commerciale est très présente, et d’ailleurs clairement expliquée sur le site. Sur l’image ci-dessous montrant une recherche avec le mot « agroforestry. » On voit apparaître un bouton shopping et une publicité intégrée à gauche dans les mots permettant d’affiner la requête. François Charlet rappelle que les sites publicitaires auxquels vous accédez à partir de Swisscows n’ont pas, eux, de politique de non collecte des données.

swiwwcows2

A suivre donc pour une évaluation comparative des performances de recherche de ce moteur. Il est quand même intéressant de constater que la non collecte des données personnelles devient un argument marketing.

Quelques moteurs de questions/réponses à la loupe

Même si la plupart des moteurs de Questions/Réponses ouverts au début des années 2000 ont fermé, une nouvelle génération de moteurs rencontre un certain succès.

Carole Tisserand-Barthole de Bases Publications nous présente cette deuxième génération de moteurs de Questions/Réponses, nous parle de l’intérêt d’utiliser ce type de moteurs et  fait un focus sur 4 d’entre eux : 

quora.comchacha.com, le français gozil.com et l’ancestral Yahoo! Answers.

Lire le billet sur Bases publications…

GlobFree : un nouveau moteur de recherche basé sur l’intelligence artificielle

Globfree permet de trouver des articles scientifiques à partir de l’analyse sémantique d’un texte en le comparant aux articles contenus dans différentes sources : Pubmed, Springer, Jstor, Pubmed Central, Nature, Trove, Cambridge University Press et Arxiv (235 millions d’articles scientifiques annoncés). Ce système d’analyse fait également de Globfree un outil de détection de plagiat.

L’utilisation de Globfree est gratuite mais nécessite un enregistrement préalable.

La recherche s’effectue en saisissant non pas des mots clés mais un texte compris en 100 et 10 000 caractères.

Saisie du texte

Saisie du texte et choix des sources

Les premiers résultats apparaissent au bout de quelques minutes, mais la recherche complète peut s’effectuer en 24 heures. La copie d’écran ci-dessous montre une recherche en cours d’exécution avec, pour chacune des sources sélectionnées, le temps de traitement restant et le nombre de documents traités. L’hexagone rouge indique qu’aucun document pertinent n’a été trouvé (ici dans PubMed Central).

recherche en cours

Recherche en cours d’exécution

Les notices correspondant aux articles jugés pertinents sont affichées dans un format assez pauvre, comportant uniquement le titre (lié au document source), le résumé, l’intitulé et l’ISSN du périodique. Aucune possibilité n’est offerte pour réduire le nombre de réponses après la première recherche.
Un indice de similarité est indiqué pour chaque article retenu, mais l’algorithme utilisé par Globfree pour le calculer n’est pas précisé. Les premiers tests effectués montrent que cette pertinence n’est pas garantie, les articles retenus n’ayant souvent rien à voir avec l’article proposé au départ. Il serait donc utile de pouvoir contraindre l’indice de similarité dans une fourchette de valeurs.

Résultats

Affichage des résultats obtenus chez Springer

Le seul export proposé est au format rtf (vers un traitement de textes) donc peu structuré et difficile à exploiter. Ceci est d’autant plus regrettable que le nombre d’articles proposé par GlobFree peut être important et nécessiter le traitement ultérieur du corpus obtenu.

Globfree indique avoir également l’ambition de devenir un réseau social scientifique (comme ResearchGate par exemple), mais les fonctionnalités dans ce domaine sont, pour le moment, très limitées.

Enfin, certaines pages du site (Explorer, pages d’aide) conduisent carrément à des impasses.

GlobFree, projet ambitieux et novateur, ne semble pas encore totalement aboutit (la société Globfree Ltd est une société anglaise récente, enregistrée en juillet 2013) et doit gagner en maturité pour rencontrer son public.

Topsy.com : moteur de recherche social

Topsy est un moteur de recherche social gratuit qui indexe les contenus de la plateforme de microblogging Twitter ainsi que ceux de Google +.

Cet outil permet de rechercher sur les tweets, sur les liens tweetés, les photos, les vidéos ou  uniquement sur les hashtags. Une recherche par experts permet d’identifier des twitteurs spécialistes d’un sujet ou d’une thématique précise. Une fois la première recherche lancée Topsy offre de multiples possibilités d’affinage : par types de résultats, par réseau (Twitter ou Google +), par langue…

Il est possible de s’abonner au résultat d’une requête (email ou RSS) ce qui peut s’avérer utile dans un processus de veille.

L’outil d’analyse intégré Topsy Social Analytics permet de comparer plusieurs requêtes  selon le volume de tweets que génère tel ou tel sujet (sur un pas de temps paramétrable).

Topsy n’est pas un moteur récent (ouverture en 2009). Il dispose donc d’archives de tweets remontant à 2008.

Topsy.com

 

Moteurs de recherche

L’Urfist1 de Paris a mis en ligne une étude sur l’Évolution des moteurs de recherche sur Internet. Au sommaire :

  • Principes et état des lieux ;
  • Diversification des contenus : recherche personnalisée, recherche sociale, recherche temps réel, recherche inversée ;
  • Pertinence des réponses : recherche sémantique, moteurs de réponses, recherche anticipatoire, recherche conversationnelle ;
  • Visualisation des résultats : moteurs linéaires, moteurs graphiques, moteurs à clusters, moteurs visuels, moteurs multimédia.

le tout accompagné d’une solide bibliographie avec de nombreux liens permettant de suivre l’actualité sur le sujet.

Ce document peut être consulté sur Slideshare ou téléchargé au format Pdf (156 p., 17,7 Mo). L’essentiel des outils est présenté sur une carte heuristique.

1. URFIST : Unité régionale de formation à l’information scientifique et technique

Qwant, un nouveau moteur de recherche

Qwant, moteur de recherche français en version bêta (lancé le 16 février 2013) combine un système propre d’indexation et de classement des pages et des données disponibles sur le Web (à partir de la technologie apportée par Pertimm, partenaire technique co-fondateur de Qwant, spécialisé dans les moteurs de recherche linguistiques, sémantiques, statistiques) à des données obtenues auprès d’autres moteurs de recherches ou via des APIs existantes (Bing, Youtube, Amazon…).

L’affichage « classic » des résultats propose 6 catégories :

  • Media (images et vidéos)
  • Web
  • Live (sites d’actualité)
  • Qnowledge Graph (données issues de Wikipedia)
  • Social
  • Shopping

Qwant

L’affichage « Mosaic »permet de sélectionner les catégories à afficher (Live et Social dans l’exemple ci-dessous). Noter qu’il est possible de répondre directement aux messages affichés dans la catégorie « Social » via son compte twitter ou Facebook.

Les « tendances du jour », qui permettent de voir les sujets qui ont été le plus discutés sur les réseaux sociaux (sans rapport avec la recherche effectuée), ne présentent pas grand intérêt.

Un des défis de ce nouveau moteur, qui a soulevé de nombreuses polémiques, est de développer suffisamment son propre système d’indexation  et de classement pour apporter une réelle nouveauté par rapport aux moteurs existants. En effet, Qwant utilise actuellement à part égale les APIs et la recherche sur des données téléchargées, donnant l’image d’une simple interface utilisant les technologies d’autres moteurs.

Vu sur Abondance

U.ki, moteur de recherche d’ebooks

Face à la multiplication des librairies numériques, certaines initiatives voient le jour, notamment celle de la société BookApp, qui propose un moteur de recherche d’ebook nommé U.ki.

Le site permet de rechercher un titre dans 3 librairies différentes à sélectionner (à l’aide d’un glissé-déposé agréable) parmi une dizaine de librairies numériques (Gallica, Google Books, Projet Gutenberg, Fnac, Amazon…).

Pour l’instant l’application est disponible en version bêta, les possibilités de recherche sont assez simplistes, on ne peut afficher que 3 librairies simultanément et des anomalies sur certaines librairies semblent exister, mais on peut signaler l’initiative qui sera sans doute suivie par d’autres…

http://u.ki

 

ACAP V2.0 pour standardiser les métadonnées sur la gestion du copyright

ACAP (Automated Content Access Protocol) vise à standardiser  les métadonnées attachées aux documents définissant le statut de ces derniers en regard des droits de propriété intellectuelle. Il sera utilisé par les éditeurs, mais aussi les agences de presse pour des contenus photos par exemple et de manière plus générale par tous les producteurs de contenus sur le web.

ACAP est une initiative de European Publishers Council, World Association of Newspapers et International Publishers Association.
Selon Amico.jamespot.pro (Michel Vajou) : l’objectif initial est d’empêcher  les « crawlers » (robots d’indexation automatique) de référencer sans autorisation préalable les contenus des éditeurs et de faciliter l’obtention d’autorisation de rediffusion des contenus « ouverts ».

Implémenter ACAP prend moins de 30 minutes (voir  ici ) et consiste à convertir le fichier robots.txt du site. Ce fichier, qui contient les autorisations d’indexation par les crawlers (robots d’indexation parcourant les sites) est reconnu par les moteurs de recherche implémentant ACAP (je n’ai pas trouvé la liste).

Sources : http://www.the-acap.org/amico.jamespot.pro – 2011-07-05