Recherche bibliographique : moteurs gratuits ou grands serveurs payants, que choisir ?

François Libmann

Bases no

405

publié en

2022.08

3686

Le paysage actuel : reflet de l’évolution apportée par Internet et de l’autonomie croissante des utilisateurs

Dans le monde de l’information scientifique, la création et le développement dès les années 70-80 de serveurs, américains dans un premier temps, a rendu de plus en plus facile la recherche de références d’articles scientifiques qui, auparavant, se faisait à la main.

Ces références sont donc passées en format électronique constituant des banques de données bibliographiques.

Cela s’est, bien sûr, fait progressivement, en commençant par les références sans abstract puis avec abstract. Il est maintenant courant d’avoir un lien vers le texte lui-même, que son accès soit gratuit ou payant.

On dispose aussi désormais d’autres types d’informations tels que des essais cliniques ou des molécules chimiques sous forme graphique, des données de recherche, etc.

Une nouvelle complexité

Pendant de nombreuses années, les serveurs pionniers tels que Dialog ou SDC (devenu Orbit puis racheté quelques années plus tard par Questel) étaient la seule voie pour accéder à ces références bibliographiques tandis que le nombre et le volume de ces banques de données ne cessaient de croître tant par les mises à jour que par les remontées dans le temps.

L’avantage était que tout était bien cadré, les banques de données avaient et ont toujours des thématiques bien identifiées (métallurgie, agriculture, médecine…) et les serveurs qui les hébergeaient y donnaient accès par des langages de requête sophistiqués, réservés aux professionnels de l’information qui s’y étaient formés.

L’accès par l’utilisateur final faisait régulièrement partie des fantasmes de dirigeants et des commerciaux des serveurs, mais cela n’allait pas plus loin.
L’arrivée d’Internet a profondément bouleversé le secteur en ouvrant largement l’accès aux sources électroniques, tandis que les langages de requête se faisaient plus simples et plus conviviaux, quitte à en limiter les possibilités.

Aujourd’hui, après une période de concentration, les grands serveurs de littérature scientifique existent toujours tels que Dialog (qui a absorbé DataStar) et STN, rejoints quelques années plus tard par de grands agrégateurs de presse scientifique tels que Scopus et Web of Science.

Le développement de moteurs gratuits et de l’open access a bousculé les schémas en place, rendant une part non négligeable de ces références bibliographiques beaucoup plus facilement accessibles et gratuitement. De plus, le développement de l’outil gratuit Google Scholar a eu comme conséquence de faire croire, à tort, à de nombreux chercheurs et décideurs, qu’une recherche dans Google Scholar pouvait être considérée comme exhaustive et qu’il n’était point besoin d’aller chercher ailleurs.

Il faut préciser ici que le libre accès aux références ne signifie pas que l’article correspondant soit en open access c’est-à-dire lui aussi gratuit. On trouve les deux cas de figure : référence payante dans un serveur payant, mais article correspondant gratuit, ou l’inverse, c’est-à-dire site en libre accès et article payant, comme par exemple souvent dans Google Scholar. Bien sûr, les possibilités de recherche sont moins sophistiquées dans ces nouveaux sites. En particulier on ne peut, parfois, limiter sa recherche au titre du document, ou combiner des étapes de recherche. Il n’est donc pas évident de traiter une question complexe.

Quelle place pour les moteurs académiques gratuits et les serveurs professionnels dans le processus de recherche ?

Toute la question qui se pose aujourd’hui est de savoir comment réaliser la meilleure recherche d’information scientifique sans avoir nécessairement besoin d’interroger les dizaines et dizaines d’outils gratuits et payants sur le marché, mais tout en ayant identifié une majorité raisonnable de documents clés. Et ce n’est pas une mince affaire.

Pour répondre à cette question, nous avons tout d’abord choisi d’illustrer la complémentarité entre moteurs académiques et serveurs professionnels en menant deux tests dans toute une panoplie d’outils. Et dans un second temps, nous avons voulu partager notre vision du modèle optimum pour une recherche bibliographique à l’heure actuelle.

Les tests

Nous avons volontairement choisi des requêtes simples (1 mot-clé) pour que cela soit reproductible dans les différents outils et des termes suffisamment restrictifs pour que cela ne génère pas trop de résultats (une cinquantaine maximum) et facilite les comparaisons.

Rappelons aussi que la recherche s’est limitée aux articles (surtout) et aux « conference proceedings" publiés en 2020 uniquement, mais en excluant les thèses et les brevets largement traités par ailleurs et répondant en général à des problématiques différentes.

Pour les serveurs payants, nous avons choisi STN, Dialog et Scopus.

Pour les moteurs gratuits (ou freemiums pour certains) :

Google Scholar ;
Dimensions ;
The Lens ;
Semantic Scholar ;
Core ;
Base ;
DOAJ ;
Paperity ;
OAIster ;
Science Open ;
Worldwidescience ;
Openaire ;
ScienceDirect (Elsevier) et les autres sites d’éditeurs.

Pour en savoir plus sur ces différents outils, nous vous invitons à lire ou relire les différents articles de Bases et Netsources qui présentent, analysent et évaluent ces produits.

Test 1 avec le terme Jacquard

Le premier terme que nous avons utilisé est le terme jacquard dans le titre qui, a priori, présente l’avantage d’être utilisé tel que dans toutes les langues et ne présente pas d’ambiguïté.

Tout d’abord, les recherches menées dans les différents serveurs/agrégateur (Dialog, STN et Scopus) ne conduisent pas exactement aux mêmes résultats. Dialog propose par exemple 2 références que l’on ne retrouve pas ailleurs et chez STN ce sont 6 références d’articles chinois exclusives à ce serveur. C’est également le cas avec Scopus qui propose 1 référence (Chinese Journal of Engineering Design) dont nous n’avons pas retrouvé trace ailleurs.

Du côté des outils gratuits, c’est Google Scholar qui remporte la palme du plus grand nombre de résultats et qui propose même 14 références que l’on n’identifie pas chez les serveurs/agrégateur (notamment une thèse brésilienne en portugais, une péruvienne en espagnol ainsi que trois descriptions de produits en espagnol), qui sont hors de notre champ de recherche.

Le deuxième site générant un nombre significatif de réponses est le site Base, dont on notera le très grand nombre de champs de recherche disponibles et la variété des types de documents proposés. Une petite dizaine de résultats pertinents (notamment des articles dans des langues peu courantes dans le monde de l’IST comme le polonais, le turc, le russe et le thaïlandais) repérés via Base ne se retrouve ni dans les serveurs/agrégateur ni dans Google Scholar.

Du côté des autres outils, on notera que :

Core nous propose 1 résultat que l’on ne retrouve nulle part ailleurs, les autres étant accessibles soit via les serveurs soit via Google Scholar et Base ;
Dimensions nous permet d’identifier 1 article supplémentaire en coréen que l’on ne retrouve que chez The Lens.

Les autres outils n’apportent pas ici de valeur ajoutée, soit parce que tous les articles proposés peuvent être identifiés ailleurs, soit parce qu’ils ne génèrent aucun résultat.

Test 2 avec le terme Octanoic

Il s’agit ici de faire une recherche sur l’acide octanoïque (octanoic acid). L’acide octanoïque ou acide caprylique est un acide gras saturé à chaîne linéaire.

Du côté des serveurs/agrégateurs payants, Dialog et Scopus donnent exactement les mêmes résultats. STN permet d’identifier 3 références en plus, une de Toxcenter et deux de Chemical Abstracts. Ces trois références « originales » sont chinoises comme pour l’exemple précédent.

Et du côté des outils gratuits, Base nous ramène 9 références originales que l’on ne retrouve nulle part ailleurs, Core nous permet d’avoir une autre référence inédite et Google Scholar n’apporte pour cette question aucune valeur ajoutée avec peu de résultats et aucun document exclusif.

Les autres outils n’apportent quant à eux aucun résultat exclusif et même parfois aucun résultat.

Ces deux exemples, qui n’ont bien évidemment qu’une valeur illustrative, vont dans le sens de ce que nous voyons et expérimentons depuis quelques années, à savoir la complémentarité entre gratuit et payant sans que l'on puisse exclure l'un ou l'autre.

Nos recommandations pour une recherche bibliographique optimisée

Même si les professionnels de l’information ont longtemps été sceptiques sur la valeur ajoutée des moteurs académiques gratuits par rapport aux serveurs/agrégateurs, force est de constater qu’aujourd’hui certains outils gratuits ont une valeur ajoutée indéniable, mais surtout complémentaire aux serveurs/agrégateurs.

Serveurs/agrégateurs et quelques outils gratuits : une bonne formule

L’idéal reste bien évidemment d’avoir accès à un serveur/agrégateur (et même plusieurs, c’est encore mieux, mais c’est évidemment un luxe que tout le monde ne peut pas s’offrir). Ces outils ont vocation à rester le pilier central de la recherche parce qu’ils permettent de réaliser des recherches très sophistiquées et ciblées, ce qui est un gain de temps et garantit une haute qualité de résultats. Ils offrent des fonctionnalités d’analyse de plus en plus performantes et des corpus de sources très conséquents, tout en étant évalués et qualifiés.
Dans un second temps, on aura tout intérêt à compléter sa recherche avec une sélection de moteurs gratuits/freemiums. D’expérience, Google Scholar et Base sont les deux outils à interroger absolument pour compléter sa recherche, sans oublier les sites d’éditeurs comme ScienceDirect. Il faudra souvent simplifier sa requête initialement formulée sur l’interface de recherche avancée d’un serveur que les serveurs/agrégateurs, mais on arrive souvent à identifier un nombre non négligeable de documents pertinents absents des serveurs, souvent dans des langues autres que l’anglais d’ailleurs.
Dimensions et The Lens pourront être également intéressants, car ils proposent des fonctionnalités innovantes et des types de contenus que l’on ne retrouve pas chez les autres outils gratuits. De plus, il y a derrière ces outils des entreprises et organisations qui investissent beaucoup dans le développement de leur produit, ce qui conduit à des évolutions et améliorations très régulières.
Enfin, on ne négligera pas non plus les outils récents qui offrent de nouvelles façons de rechercher et sortent complètement de la recherche booléenne. Ils permettent parfois de faire émerger des contenus intéressants que l’on n’aurait eu aucune chance de retrouver avec une requête booléenne, aussi sophistiquée soit-elle. On pensera par exemple aux moteurs dopés à l’IA ou outils de recommandations automatique comme Elicit, aux outils de recherche par réseaux de citations, etc. (voir Bases N ° 404 - juin 2022).

Quand on n’a pas accès aux serveurs/agrégateurs

Pour les personnes qui n’auraient pas la possibilité d’avoir accès à des serveurs/agrégateurs, il ne faut pas s’avouer vaincu pour autant. La recherche dans les outils gratuits va permettre d’identifier une part non négligeable des documents clés. Mais il faut accepter que la recherche soit nettement plus chronophage que lorsque l’on utilise un serveur. Effectuer des recherches simples là où on aurait pu faire une requête très ciblée va nécessairement générer un plus gros volume de résultats qu’il va falloir passer en revue et surtout, il va falloir interroger beaucoup plus d’outils gratuits pour arriver à faire le tour du sujet de manière à peu près satisfaisante.

Renoncer à l’exhaustivité et accepter que le client/chercheur soit aussi acteur de la recherche bibliographique

À l’époque où les outils gratuits n’existaient pas encore, on pouvait s’assurer qu’on avait réalisé la recherche la plus exhaustive possible. Même si on n’avait pas nécessairement repéré tous les articles parus dans le monde sur le sujet, on pouvait au moins garantir qu’on avait interrogé avec méthode les bases disponibles sur le marché.

Aujourd’hui, cette quête est vaine, car le nombre d’outils disponibles pour repérer l’information scientifique et technique est gigantesque. Interroger un maximum d’outils générant un volume conséquent de résultats impossibles à filtrer en amont pour récupérer finalement 1 ou 2 références complémentaires n’est en général pas très rentable.

Il faut aussi garder en tête qu’aujourd’hui une majorité de chercheurs cherchent de l’information scientifique par eux-mêmes, tout en faisant appel à des professionnels de l’information, à qui ils apportent les références qu’ils ont trouvées. Et ce n’est nullement un aveu d’échec ou de faiblesse pour le pro de l’info, qui utilisera cet apport pour enrichir sa connaissance du sujet et relancer sa recherche sur de nouvelles bases. La relation entre le professionnel de l’information et le client/chercheur a changé.

Le client n’a plus un rôle passif de réceptacle de l’information, mais de « partenaire de recherche ». Le professionnel de l’information lui garantit une recherche avec des outils avancés, quitte à la coupler avec une recherche dans certains outils gratuits jugés pertinents ou innovants. Et surtout, le pro de l’info lui assure une méthode de recherche structurée, bien documentée et reproductible, là où le chercheur est souvent plus dans la sérendipité.
Au final, interroger un ou plusieurs serveurs/agrégateurs auxquels s’ajoutent quelques outils gratuits/freemiums soigneusement sélectionnés et une collaboration étroite avec ses clients/usagers est d’expérience la méthode la plus satisfaisante pour toutes les parties.

Précédent 178 / 633 Suivant

L’expertise humaine qui donne du sens à l'IA

Recherche bibliographique : moteurs gratuits ou grands serveurs payants, que choisir ?

Le paysage actuel : reflet de l’évolution apportée par Internet et de l’autonomie croissante des utilisateurs

Une nouvelle complexité

Quelle place pour les moteurs académiques gratuits et les serveurs professionnels dans le processus de recherche ?

Les tests

Test 1 avec le terme Jacquard

Test 2 avec le terme Octanoic

Nos recommandations pour une recherche bibliographique optimisée

Serveurs/agrégateurs et quelques outils gratuits : une bonne formule

Quand on n’a pas accès aux serveurs/agrégateurs

Renoncer à l’exhaustivité et accepter que le client/chercheur soit aussi acteur de la recherche bibliographique

Commentaires

Menu principal