La recherche d’information est au cœur des métiers de l’information depuis toujours et on a parfois le sentiment de tout savoir à son sujet. Mais la recherche d’information telle qu’elle était pratiquée il y a plus de 30 ans (lors du lancement de BASES par exemple) n’a plus grand chose à voir avec celle que nous pratiquons aujourd’hui. Elle se transforme d’ailleurs plus vite que jamais...
D’un côté, rechercher de l’information n’a jamais eu l’air aussi simple et accessible. On dispose en effet de nombreux outils gratuits proposant des interfaces intuitives et que l’on peut interroger en langage naturel.
Mais de l’autre, nous vivons aujourd’hui dans un monde avec une surabondance de sources, outils, méthodes et informations.
La recherche d’information n’a en réalité peut-être jamais été aussi complexe et multiple.
Lire aussi :
Un regain d’énergie et de vitalité pour les outils de recherche
Bien interroger les outils de recherche gratuits : une multitude de méthodes
Nous abordons régulièrement dans BASES et NETSOURCES la question de l’évolution de la recherche d’information, de ses méthodes et outils, soit par l’intermédiaire de comptes-rendus de conférences, soit en nous focalisant sur des aspects précis.
Mais en ce début d’année, nous avons décidé de proposer un panorama global de la recherche d’information professionnelle et experte en 2019 :
Cet aspect sera abordé dans ce numéro de BASES.
Il y a une vingtaine d’années, les outils de recherche d’information dans un contexte professionnel se divisaient en deux catégories bien distinctes.
- d’un côté les bases de données et serveurs professionnels qui donnaient accès à des contenus payants (articles de presse, articles scientifiques et académiques, brevets, études de marché, données financières, profils pays et d’entreprise, etc.)
- de l’autre, les outils de recherche gratuits du Web ouvert (moteurs de recherche, annuaires généralistes et spécialisés, métamoteurs, portails sectoriels, etc.) qui donnaient essentiellement accès à des contenus gratuits.
Lire aussi :
Bien interroger les outils de recherche gratuits : une multitude de méthodes
Mais en 1998, Google est arrivé et a progressivement pris toute la place sur le créneau de la recherche sur le Web ouvert.
Ses concurrents directs mais aussi les annuaires, métamoteurs, etc. ont progressivement fermé leurs portes. Et tous ceux qui ont tenté par la suite de le concurrencer ont vite disparu des écrans radars. Seul Bing(Microsoft) a réussi à survivre mais toujours très loin derrière...
Ainsi, au cours des dix dernières années, on avait de plus en le plus le sentiment que la recherche professionnelle sur le Web ouvert se limitait quasi-exclusivement à interroger Google et ses moteurs dérivés (Google Images, Blogs, Scholar, etc.) en tirant parti le mieux possible, de leurs fonctionnalités avancées.
Déjà abonné ? Connectez-vous...
Si, comme nous avons pu le voir, le paysage des outils de recherche a évolué, c’est également la façon de les interroger qui a beaucoup changé en quelques années.
Au départ, tous les outils ou presque proposaient au minimum une recherche booléenne simple.
Par recherche booléenne, nous faisons référence ici à des requêtes structurées plus ou moins longues où l’on combine des mots-clés grâce aux opérateurs booléens classiques AND, OR, NOT mais aussi des opérateurs avancés (opérateur de proximité, recherche dans le titre, recherche sur un type de fichier, troncature, etc.).
Lire aussi :
Un regain d’énergie et de vitalité pour les outils de recherche
Google évolue, les documentalistes plus utiles que jamais
Comment bien interroger Google en 2018
L'information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?
Au départ donc, tous les outils ou presque proposaient au minimum une recherche booléenne simple. Mais la seule différence, c’est que les outils de recherche Web étaient souvent extrêmement simplistes comparés aux outils de recherche professionnels mis à disposition par les serveurs et bases de données payantes.
Ces derniers proposaient en effet :
Déjà abonné ? Connectez-vous...
Toujours sur le sujet de la recherche d’information, nous vous invitons à venir assister lors du prochain salon i-expo le 21 mars 2019 à 10h.
Cette conférence sera animée par Anne-Marie LIBMANN, directrice opérationnelle de FLA CONSULTANTS, cabinet d’intelligence économique et technologique et à laquelle participeront, entre autres,
Les thèmes discutés seront :
PANORAMA
• Les banques de données brevet gratuites ou freemium
SERVEURS PROFESSIONNELS
• STN : de nombreuses nouveautés
SEARCH SOLUTIONS 2018
• Les moteurs de recherche vers toujours plus de recommandations de contenus
• De la recherche par mot-clé à la recherche vocale et visuelle
INDEX
• Index BASES 2018
Déjà abonné ? Connectez-vous...
Le Web d’aujourd’hui s’émancipe de plus en plus du contenu textuel avec une part toujours plus importante de contenus multimédias. Et de fait, la recherche Web traditionnelle par mot-clé évolue également avec une progression importante de la recherche vocale et de la recherche visuelle et d’images.
Durant cette deuxième session de la journée Search Solutions 2018, il a été question de recherche vocale chez Google d’une part et de recherche d’images chez les journalistes d’autre part.
Lire aussi dans ce dossier :
Les moteurs de recherche vers toujours plus de recommandations de contenus
Cette année encore, Google était présent à la journée d’étude par l’intermédiaire d’Enrique Alfonseca, Research Tech Lead/Manager. Et comme l’année dernière, il était question de recherche conversationnelle appliquée cette fois-ci à l’Assistant Google, l’assistant personnel intelligent développé par Google dont la première version date de 2016.
Preuve en est que la recherche conversationnelle (ici conversation orale entre un internaute et un assistant personnel) est un sujet-clé pour Google.
La recherche d’information dans un cadre professionnel sur Google Assistant n’est pas encore pour demain. L’assistant personnel de Google n’a pour le moment vocation qu’à répondre à des questions du quotidien comme la météo, la réservation d’un restaurant ou de places de cinéma.
Mais comprendre les angles de recherche de Google, c’est aussi comprendre sa stratégie sur le long-terme et son adéquation ou inadéquation potentielle avec les problématiques des professionnels de l’information.
L’assistant Google permet aujourd’hui à l’utilisateur d’interagir avec la machine dans le but de réaliser une tâche. C’est l’utilisateur qui guide la machine et non l’inverse.
Quand les gens interrogent un assistant personnel, ils souhaitent :
Et, par la même occasion, ils souhaitent apprendre quelque chose.
Et tout cela doit fonctionner sans aucun visuel et uniquement grâce à des réponses orales.
La principale difficulté, c’est qu’une très grande partie des sources d’informations Web sont « non structurées » à l’image des pages Web, Wikipédia, etc. Il n’y a pas de champs pour indiquer que telle information correspond à un horaire, une définition, un tarif, une date de naissance, etc.
Déjà abonné ? Connectez-vous...
On sait que l’offre en matière de banques de données brevets est assez pléthorique. Cela reflète d’abord l’évolution des technologies rendant plus facile la création d’une offre sophistiquée. Cette évolution coïncide avec l’importance croissante de l’intérêt pour les brevets pour un grand nombre d’entreprises, de la start-up à la multinationale en passant par les laboratoires publics en mal de valorisation. Un élément facilitant est que ces informations sont a priori gratuites et ne font pas l’objet d’un copyright.
En revanche, la demande croissante de la traduction en anglais des brevets de plus en plus nombreux déposés dans des langues « exotiques », en particulier asiatiques, et n’ayant pas d’équivalent en anglais, génère des coûts non négligeables. Cela est d’autant plus vrai que l’évolution rapide des logiciels de traduction oblige à refaire assez souvent, en les améliorant, les traductions d’une langue essentiellement vers l’anglais. Néanmoins, dans certains cas, les traductions sont disponibles gratuitement.
On peut classer l’offre des banques de données brevets en quatre catégories :
La revue World Patent Information d’Elsevier a publié en mars dernier un article intitulé « Study and comparison of the unique selling propositions (USPS) of free-to-use multinational patent search systems » écrit par Björn Jürgen et Nigel Clarke analysant de façon détaillée six de ces services gratuits.
Leur analyse a été extrêmement fouillée puisqu’ils ont utilisé 66 critères pour évaluer ces six services.
Le minimum de fonctionnalités exigées pour retenir ces six services a été la possibilité de rechercher par mots-clés, par inventeur, par déposant, par date et numéro de priorité, de dépôt ou de publication.
Nous avons exploré ces six sites en privilégiant une présentation générale de chacun d’entre eux plutôt que la reprise détaillée des éléments de l’article auquel on pourra toujours se référer.
On notera la grande variété de ces sites, certains se limitant aux brevets d’autres offrant des brevets et des articles de littérature scientifique. Certains sont totalement gratuits tandis que d’autres sont des sites freemium, sachant que la version gratuite offre déjà des possibilités significatives de recherche. A l’exception de l’un d’entre eux consacré à la chimie, tous sont généralistes.
Enfin, même s’ils sont gratuits, au moins en partie, ce sont des sites plutôt sophistiqués offrant de nombreuses possibilités. Si l’on souhaite vraiment les exploiter au maximum de ce qu’ils offrent, il est nécessaire d’investir un minimum de temps, afin de les maîtriser.
Déjà abonné ? Connectez-vous...
Cette année encore, nous avons eu l’occasion d’assister à la journée d’étude Search Solutions à Londres organisée par BCS (Chartered Institute for IT) et qui a eu lieu le 27 novembre dernier.
Cette manifestation annuelle regroupe à la fois des acteurs des moteurs de recherche (développeurs, ingénieurs, data scientists, etc.) mais aussi les utilisateurs de ces moteurs, notamment les professionnels de l’information.
C’est l’occasion d’avoir une vision claire des dernières tendances et axes d’évolution chez les moteurs de recherche, qui, rappelons-le sont pour la plupart avant tout orientés vers le grand public comme Google, Bing ou encore les réseaux sociaux. Mais toutes ces évolutions ont également un impact fort sur l’avenir des pratiques de recherche et de veille des professionnels de l’information.
Lire aussi dans ce dossier : De la recherche par mot-clé à la recherche vocale et visuelle
Dans ce premier article, nous reviendrons sur la session consacrée à la recommandation et l’exploration de contenus où intervenaient :
La recommandation de contenus prend une place toujours plus importante dans l’univers du Web notamment la recommandation automatique grâce aux progrès de l’informatique d’abord et plus récemment de l’intelligence artificielle.
Lors de cette journée d’étude, nous avons pu constater que la recommandation de contenus reste un thème très important pour les grands acteurs du Web et va même de plus en plus loin.
Nous avions d’ailleurs consacré un article à cette thématique il y a près d’un an dans NETSOURCES.
« La veille et la recherche d’information à l’heure de la recommandation de contenus » - NETSOURCES janvier/février 2018 - n°132 - Il est possible d’acheter ce numéro en version numérique ou papier en nous contactant à l’adresse suivante : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
S’il s’agissait ici de retours d’expérience d’outils très grand public et peu utilisés des professionnels de l’information, en l’occurrence Spotify et Asos, cela illustre bien une tendance forte qui impacte tous les outils de recherche Web grand public, de Google à Bing en passant pour tous les réseaux sociaux qui sont aujourd’hui des outils indispensables pour la veille et la recherche d’information.
Comprendre les grandes tendances et évolutions de ces outils permet de voir vers quoi se dirige la recherche Web de demain. Bon nombre des grandes évolutions du Web ont d’ailleurs débuté dans la sphère grand public avant d’être transposées d’une manière ou d’une autre dans la sphère professionnelle comme les outils de veille ou bases de données professionnelles par exemple.
Déjà abonné ? Connectez-vous...
Après le léger passage à vide observé lors de l’abandon du développement de New STN, STN montre un regain de dynamisme et, lors de la dernière journée d’utilisateurs, les nouveautés ne manquaient pas.
Il faut d’abord savoir que tous les nouveaux développements et les ajouts de nouvelles bases se feront sur STNext.
Pour leur part, New STN et STN Express continueront à exister mais ne bénéficieront d’aucune nouvelle fonctionnalité et seront abandonnés à terme
Comme tous les ans, les thésaurus de Medline et Embase ont été mis à jour. De même, les Manual Codes de WPI ont également évolué.
Par ailleurs, d’autres informations en provenance d’Elsevier (le producteur d’Embase) et de Dialog montrent une série de rapprochements entre Embase et Medline. Ce sujet paraît fort complexe et nous sommes en train d’investiguer précisément.
Enfin sur un tout autre sujet, on voit de plus en plus souvent certains articles scientifiques remis en cause, voire retirés, par exemple en raison d’utilisation d’images qui ne sont pas bonnes, essentiellement dans des articles concernant le domaine de la biologie.
Nous y avions consacré un article dans Bases n° 329 (septembre 2015) et nous constatons qu’un journal comme Le Monde traite de plus en plus fréquemment cette problématique à travers ses articles.
Dans ce contexte, Embase a ajouté des liens vers les articles « rétractés » et les erreurs signalées.
Pour identifier les articles rétractés, au nombre d’environ 1 500, qui peuvent être signalés de plusieurs façons, il faut écrire
=> S (“RETRACTATION TO” OR “RETRACTRATION OF”)/TI OR RETRACTATION NOTICE/SO OR RETRACTED PUBLICATION/DT
Pour rechercher des signalements d’erreur, au nombre d’environ 150 000, on écrira
=> S (ERRATUM OR CORRIGENDUM OR CORRECTION)/TI OR (ERRATA OR ERRATUM)/ CT,DT
On notera que dans Inpadoc, l’Office Européen des Brevets a complètement redéfini les codes liés aux paiements des redevances annuelles des brevets.
Enfin, Inspec et Compendex continuent à élargir leur couverture.
Inspec qui a ajouté plus de 900 000 références en 2017, offre actuellement plus de 17 millions de références.
Cette base inclut aussi maintenant des références de 450 publications en open access et des documents du repository arXiv, un pionnier de ce type de source.
En ce qui concerne Compendex, le contenu s’est enrichi de plus de 170 000 thèses américaines, les plus anciennes remontant à 1903. Il est prévu d’ajouter chaque année environ 6 000 nouvelles références de thèses.
Sur STNext, il est enfin possible maintenant de faire des recherches de structures simultanément dans quatre bases de données : CAS Registry (plus de 140 M), MARPAT (1,2 M), Derwent Chemistry Resources 3,2 M) et DWPIM (2,1 M ). REAXYSFILESUB (28 M) sera également disponible, prochainement.
On notera que DWPIM n’est accessible qu’aux détenteurs d’un contrat forfaitaire qui ont souscrit spécifiquement à l’option DWPIM.
Déjà abonné ? Connectez-vous...
TENDANCES
• Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
MOTEUR DE RECHERCHE
• Google Dataset Search : peut-il devenir le Google Scholar des données ?
PANORAMA
• Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
OPEN DATA
• Quelques rappels sur l’open data au service de la recherche d’information
Déjà abonné ? Connectez-vous...