Retrouver les dernières déclarations d’une personnalité, rassembler les discours parus dans la presse sur une thématique précise, … voici des problématiques auxquelles peuvent être régulièrement confrontés les professionnels de l’information.
Pourtant, cette entreprise n’a rien d’aisé, loin de là. Même si les déclarations sont souvent mises entre guillemets et/ou en italiques dans les textes et articles qui les relatent, il n’existe pour autant aucun moyen simple et direct pour identifier ces éléments, que ce soit en utilisant des moteurs de recherche ou des bases de données et agrégateurs de presse.
A l’occasion du lancement récent du moteur de recherche Storyzy, un moteur spécialisé dans la recherche de citations, nous avons décidé d’en savoir plus sur ce nouveau venu et de faire le point sur les outils disponibles aujourd’hui sur le marché et les méthodes pour interroger les moteurs et les bases de données et agrégateurs de presse à cette fin.
Avant toute chose, il convient de définir les différents cas de figures pour retrouver les paroles d’un individu.
Il peut en effet s’agir :
Fort heureusement pour les professionnels de l’information, bon nombre de personnalités publiques (ou leurs équipes) cherchent à mettre en avant leur exposition médiatique et n’hésitent pas à publier sur leur site, le site de l’entreprise, de l’organisation, ou autre support la liste de leurs déclarations.
Ce qui peut simplifier grandement la tâche dans un certain nombre de cas tout en ayant conscience que ce n’est pas toujours exhaustif, surtout dans le cas où les articles ont une connotation négative.
Pour identifier des discours et déclarations sur une thématique précise, on peut également compter sur la presse pour proposer des synthèses sur le sujet (notamment dans le cas de campagnes électorales).
Déjà abonné ? Connectez-vous...
Twitter reste plus que jamais l’un des piliers majeurs de tout processus de veille.
Avec ses 320 millions d’utilisateurs et ses 500 millions de tweets quotidiens, le réseau social offre une extraordinaire masse de données que tout veilleur cherche à capturer.
De plus, la possibilité d’obtenir un accès aux positions et ressentis d’experts, de journalistes, d’hommes politiques ou de célébrités offre au veilleur la perspective de mettre la main sur des informations que l’on ne peut trouver nulle part ailleurs.
C’est tout aussi logiquement que Twitter a suscité l’intérêt des spécialistes en réseaux, sociaux ou non. Une caractéristique intéressante de Twitter par rapport à la plupart des autres réseaux sociaux est d’être « dirigé », c’est-à-dire qu’une relation entre deux « nœuds » (deux comptes Twitter, en l’occurrence) peut être à sens unique : il est possible de suivre un compte Twitter sans que ce dernier ne nous suive.
Cela diffère de réseaux sociaux comme Facebook qui sont dits « non dirigés » : une relation ira forcément dans les deux sens, car il n’est pas possible d’être ami avec quelqu’un sur Facebook sans que celui-ci soit aussi ami (même si, pour complexifier la chose, il est aujourd’hui possible de « suivre » des personnes sur Facebook sans pour autant être ami avec eux : le Facebook de 2016 possède ainsi à la fois des composantes « dirigées » et « non dirigées »).
Ces caractéristiques, ajoutées au fait qu’il est presque entièrement ouvert (à l’exception de quelques rares comptes fermés) expliquent aussi que Twitter soit le réseau social qui se prête le mieux à l’analyse. Il s’agit en effet d’un des seuls réseaux sociaux à disposer d’outils d’analyse qui soient à la fois gratuits, efficaces, et larges dans leur couverture.
La majorité des outils gratuits disponibles pour Instagram ne permettent, par exemple, que d’analyser son propre profil, ce qui réduit d’emblée l’intérêt pour le professionnel de l’information (ce type de services étant plutôt destiné aux services communication désirant « optimiser » leur activité sur les réseaux sociaux).
Quant à Facebook ou LinkedIn, le caractère semi-fermé de ces réseaux sociaux ferme aussi la porte à la majorité des solutions analytiques. Nous avions tout de même mentionné dans un précédent numéro la solution « Faveoo Insights » qui permet ce type d’analyse. Elle est néanmoins payante. Voir l’article « DataSift : une nouvelle étape dans l’accès aux données des utilisateurs de Facebook? » - Netsources n°122 - mai/juin 2016).
Nous allons ainsi présenter dans cet article quatre outils permettant d’analyser l’activité sur Twitter. Deux de ces outils permettent des analyses relativement poussées mais sont aussi plus complexes d’utilisation, tandis que les deux autres peuvent être pris en main sans la moindre difficulté mais offrent des analyses plus générales.
La bonne compréhension et l’exploitation de ces données peuvent offrir un important avantage compétitif au veilleur et, de fait, à l’entreprise (ou au client) pour lequel il travaille. Sans rentrer dans le débat de savoir où s’arrête la veille et où commence l’analyse, notons que l’intégration de processus analytiques dans une veille peut offrir plusieurs avantages.
Il y a tout d’abord l’identification de sources ou de personnes pertinentes : cela peut être aussi bien un site peu connu mais de qualité ou un utilisateur de réseaux sociaux pourvoyeur d’informations intéressantes ou très écoutés (les fameux « influenceurs »).
L’analyse d’une veille doit aussi permettre de repérer des tendances, qui seront elles-mêmes réinsérées dans le processus de veille. Enfin, analyser des données sur Twitter, c’est aussi simplement mieux comprendre la manière dont celles-ci apparaissent et évoluent, permettant au final de mieux anticiper. Détection de tendances, identification de sources, et même de médias tels que des vidéos ou des pages internet, voici les principaux apports que ces solutions d’analyses offrent.
Déjà abonné ? Connectez-vous...
La vie de l’INIST n’a pas été un long fleuve tranquille et les remises en cause ou les questionnements sur sa vocation et ses produits et services n’ont pas manqué. Hors de la sphère publique (l’INIST est un établissement du CNRS), l’INIST était essentiellement connu pour deux produits, Pascal et Francis et un service, Refdoc.
Pascal et Francis sont deux banques de données, la première spécialisée en sciences, technologie, médecine et la seconde couvrant 15 disciplines en sciences humaines et sociales. Francis était particulièrement appréciée aux Etats-Unis où elle n’avait pas tellement d’équivalent.
Quand il était encore accessible à tous, le service de fourniture de copie de documents primaires Refdoc était très utilisé (100.000 commandes étaient prévues en 2014) même si cette utilisation allait décroissant sans doute à cause de la mise en ligne des articles par les éditeurs.
Dans l’histoire récente, un premier changement majeur a été l’arrêt du service Refdoc pour les clients privés.
Cet arrêt a été provoqué par la conjonction de deux facteurs : l’acharnement d’un juriste à faire condamner l’INIST sur des problèmes très juridiques de droit de copie et une sorte de cabale menée par Savoirscom1 et le blogueur Olivier Ertzscheid (Affordance) qui trouvaient insupportable que l’INIST «vende» des articles accessibles gratuitement par ailleurs.
Déjà abonné ? Connectez-vous...
TENDANCES
• La mort annoncée de la recherche booléenne ?
RETOUR D’EXPÉRIENCE
• CETIM : Évaluer la pertinence des sources d’informations scientifiques et techniques
ACTUALITÉS
• En bref
Déjà abonné ? Connectez-vous...
On reconnait bien souvent un professionnel de l’information à son utilisation intensive et souvent experte des opérateurs booléens et autres opérateurs avancés.
Chaque question est ainsi décortiquée, traduite en une liste de mots-clés avec leurs variantes et synonymes et combinés entre eux avec des opérateurs booléens et de multiples opérateurs avancés (termes dans la même phrase, termes cités au moins n fois, opérateurs de proximité, etc.).
Les autres professions ont quant à elles généralement tendance à méconnaître ces différentes fonctionnalités et à préférer des requêtes en langage naturel.
A l’origine, le terrain de jeu des professionnels de l’information était celui des serveurs et bases de données qui proposaient des fonctionnalités de recherche poussées avec la possibilité de construire des requêtes complexes voire même très complexes et supposaient une formation poussée pour y parvenir.
Par la suite, l’avènement du Web a démocratisé la recherche d’information au travers des moteurs de recherche et notamment Google. Même si les fonctionnalités de recherche étaient bien moindre que sur les serveurs, le principe restait néanmoins le même avec une utilisation des opérateurs booléens classique (AND, OR et NOT) et quelques opérateurs avancés (comme la possibilité de limiter la recherche au titre des pages, de limiter à certains formats de fichiers, à certains termes dans l’url ou l’extension de sites).
Mais récemment, on a pu voir fleurir sur le Web (principalement dans la blogosphère infodoc anglo-saxonne) divers articles et commentaires sur la mort de la recherche booléenne notamment sur Google. D’après ces sources, une requête en langage naturel produirait de bien meilleurs résultats qu’une requête booléenne sur Google (du moins en langue anglaise).
Cela s’expliquerait par les nombreuses avancées de Google en matière de sémantique et l’utilisation intensive des opérateurs booléens et avancés pourrait même brider les résultats du moteur. L’utilisateur ne tirant ainsi pas parti des différentes fonctionnalités sémantiques.
Nous avons donc voulu dans un premier temps faire le point sur les différentes théories qui ont émergé au cours des dernières années sur les meilleures méthodes pour interroger Google. Dans un second temps, nous avons mené une série de tests pour vérifier si une requête en langage naturel produisait bien de meilleurs résultats en anglais mais également en français. Ensuite, nous avons cherché à savoir si cette tendance à savoir la disparition progressive des méthodes de recherche traditionnelles au profit de la recherche sémantique s’appliquait également aux autres moteurs de recherche.
Enfin nous nous sommes également demandés si cette évolution vers la recherche sémantique et l’utilisation d’une syntaxe simplifiée était une tendance observée chez les serveurs et bases de données (pourtant le lieu idéal pour expérimenter des recherches booléennes complexes et élaborées) ou les autres outils de veille et de recherche utilisés par les professionnels de l’information. Nous traiterons en détail cet aspect dans le prochain numéro de Bases et nous nous consacrerons dans ce numéro à la recherche sur Google et les autres moteurs Web.
Déjà abonné ? Connectez-vous...
L’information scientifique et technique est importante pour une structure de type centre technique. Il est donc nécessaire de remettre périodiquement en cause ses sources d’informations en choisissant le meilleur compromis entre la qualité et le coût.
En 2016, le CETIM a cherché à évaluer la pertinence de ses sources d’informations. Celles-ci ont en effet évolué depuis quelques années, en particulier avec l’apparition de l’offre des éditeurs scientifiques. Le département Veille Technologique et Stratégique du CETIM s’est appuyé sur un projet de fin d’année de Licence Pro en info-doc de Lyon pour évaluer la pertinence des différentes sources d’information.
Nous avons procédé à une analyse en deux temps : un sondage auprès de professionnels de l’information et de chercheurs pour avoir un panorama des différentes sources d’informations utilisées et, dans un second temps, une analyse de la couverture de quelques serveurs d’informations et bases de données.
Pour avancer dans ce projet, nous nous sommes associés à FLA Consultants, pour interroger les sources d’informations avec un protocole plus structuré.
Cet article présente ainsi l’état d’avancement de cette étude et les conclusions associées.
Déjà abonné ? Connectez-vous...
Le 24 août dernier, Elsevier annonçait le lancement de Datasearch, un moteur de recherche de données scientifiques multisectoriel en libre accès. L’outil fonctionne comme un moteur classique et interroge des sources scientifiques et répertoires institutionnels. Elsevier explique avoir voulu aider les chercheurs à gagner du temps dans leurs recherches car les moteurs de recherche généralistes ne sont pas forcément les plus adaptés pour identifier de l’information très spécialisée et ne se limitent pas à des sources d’information qualifiées et reconnues.
Ainsi, Datasearch indexe pour le moment les tableaux, figures et données supplémentaires associées aux articles publiés sur ScienceDirect, arXiv et PubMed Central ainsi que le contenu de NeuroElectro, Dryad, PetDB, ICPSR, Harvard Dataverse et ThemoML.
Pour le moment Datasearch n’est pas un produit commercial mais Elsevier indique que le business model n’est pas encore finalisé. Impossible donc de savoir comment va évoluer le produit dans les mois et années à venir et s’il va rester en libre accès.
IET (Institution of Engineering and Technology) a récemment annoncé que plus de 30 000 pre-prints disponibles dans l’archive ouverte ArXiv seraient indexés dans la base de données Inspec (l’une des bases de référence en physique et sciences de l’ingénieur).
Aux Etats-Unis, une nouvelle archive ouverte dédiée aux sciences de l’ingénieur vient de voir le jour. Elle s’appelle EngrXivet le projet est mené par des ingénieurs et une communauté de bibliothécaires scientifiques américains. L’archive ouverte est hébergée en version béta sur la plateforme Open Science Framework (qui héberge aussi les archives ouvertes SocArXiv pour sciences sociales et PsyArXiv pour la psychologie).
Pour le moment, l’interface est peu conviviale et le nombre de documents restreints mais le projet n’en étant qu’à ses balbutiements, on ne peut qu’espérer une amélioration au cours des prochains mois.
En termes de fonctionnalités de recherche, l’outil permet d’utiliser les opérateurs booléens classiques (sauf que les mots-clés sont séparés implicitement par un OR) et les guillemets pour la recherche d’expression exacte. Dans un second temps, il est possible de filtrer les résultats par type (document, images, données statistiques, etc.), sources et date.
Reuters vient tout juste d’annoncer des évolutions majeures au niveau de la recherche dans Thomson Innovation et notamment le lancement d’un nouvel algorithme « smart search » plus orienté vers la sémantique. Au delà de la traditionnelle recherche par mot-clé, « smart search » extrait des mots-clés et des thèmes à partir d’un bloc de texte et les injecte dans l’algorithme de recherche.
Plum Analytics (EBSCO) et ACI Information Group ont récemment développé un partenariat afin de proposer des métriques sur plus d’1 million d’articles de blogs scientifiques et académiques aux clients de PlumX Suite.
L’agrégateur de presse EDD propose de nouvelles fonctionnalités :
Il annonce également le lancement prochain d’un nouvel outil appelé Pressedd-Reader, une nouvelle plateforme de consultation des retombées médias, conçue spécifiquement pour les lecteurs.
Du côté de Google, on notera l’ajout de 11 nouveaux pays à l’outil Google Patents : Japon, Corée du Sud, Royaume-Uni, Espagne, France, Belgique, Russie, Pays-Bas, Finlande, Danemark et Luxembourg.
Twitter revoit sa politique des 140 caractères. A partir du 19 septembre, les liens ne seront plus comptabilisés.
Les outils du Web vont et viennent et il n’est pas rare que certains outils gratuits changent leur politique pour passer au payant. En cette rentrée, on notera donc la disparition du moteur de hashtag « Hshtags ».
SERVEURS • De nouvelles possibilités avec PatentPak sur STN classique
OPEN DATA
• ScanR : un moteur pour identifier des acteurs de la recherche publique et privée en France
BREVETS
• Orbit fait un premier pas hors des brevets
• De l'intérêt de la presse pour la gestion des marques verbales
BASES DE DONNÉES
• La base EMIS spécialisée sur les marchés émergents évolue
ACTUALITÉS / AGENDA • En bref
SERVEURS • Thomson Reuters se recentre sur la finance
BREVETS
• Le Brexit remet en cause le Brevet Unitaire
• Le CFIB noue un partenariat avec l’IEEPI
A LIRE • La revue du Web de l’été 2016
Déjà abonné ? Connectez-vous...
Depuis quelques temps déjà, la recherche dans le domaine de la chimie se développe et se complexifie.
C’est pourquoi, et comme il y a un vrai marché, les offres déjà conséquentes se développent, se diversifient et apportent de nouvelles possibilités qui aident les chercheurs dans leur travail, en particulier en leur faisant gagner du temps dans le traitement de questions toujours plus complexes.
Curieusement, deux initiatives issues de sociétés plus complémentaires que concurrentes ont apporté des réponses ayant des points communs à des problématiques voisines.
Il s’agit, en effet, essentiellement de pouvoir localiser dans le texte d’un brevet la citation d’une molécule précise sans avoir à feuilleter les dizaines, voire les centaines de pages de ce brevet.
Nous avons déjà parlé (dans le numéro de BASES n° 335 de Mars 2016) de la réponse apportée par PatBase avec Textmine, un outil développé à l’occasion du lancement du nouveau service Chemical Explorer.
Une réponse analogue a été apportée par STN avec PatenPak disponible d’abord sur SciFinder puis sur STN Classic.
Déjà abonné ? Connectez-vous...
Le Ministère de l’éducation Nationale, de l’Enseignement et de la Recherche vient de lancer en version beta ScanR, un moteur de recherche permettant d’identifier des organismes de recherche publics et privées (petites, moyennes et grandes entreprises).
Quand on connaît la difficulté qu’il y a à localiser des experts ou des acteurs sur une thématique précise, on ne peut que se féliciter du lancement d’un tel produit.
Mais comment fonctionne t-il, quelles sources interroge t-il et quelles sont ses limites ?
A l’heure actuelle, le moteur recense plus de 15 000 acteurs.
Chaque résultat correspond à une fiche détaillée sur une entreprise ou organisme public.
Ces fiches ont été réalisées en « combinant des informations extraites des sites web de ces entités et des données issues de sources ouvertes ».
Déjà abonné ? Connectez-vous...