Comment faire évoluer sa recherche d’information scientifique avec les nouveautés de Google Scholar ?

Carole Tisserand-Barthole

Bases no

404

publié en

2022.06

2286

Google Scholar évolue (discrètement)

Lors de son lancement en 2004, Google Scholar a véritablement révolutionné la recherche d’information scientifique et l’accès à la littérature académique avec un outil de recherche gratuit, une couverture très large et internationale et la capacité à indexer et à rechercher sur le texte intégral des articles scientifiques (même s’il ne donne pas ensuite accès au texte intégral de tous les articles).

S’en est suivie une longue période où l’outil a peu évolué et n’a fait l’objet que de très peu de communication du côté de Google. Il n’y a qu’à se rendre sur le blog officiel de Google Scholar pour s’en convaincre avec à peine 2 ou 3 articles et annonces par an au cours des dernières années. Annonces qui sont même parfois anecdotiques et n’apportent rien aux internautes qui recherchent de l’information ou font de la veille.

Le contraste avec le moteur Web de Google, qui ne cesse d’innover et de communiquer sur son intégration de l’IA est criant… On notera d’ailleurs que certains professionnels à la recherche d’articles scientifiques préfèrent passer par le moteur Web de Google que par Google Scholar.

Depuis quelque temps cependant, Google semble accorder un peu plus d’importance à Google Scholar avec l’ajout de nouvelles fonctionnalités. Et ce qui est étonnant, c’est que Google Scholar communique sur certaines de ces nouveautés, mais une petite partie seulement. Les autres nouveautés sont découvertes un peu par hasard par des professionnels de l’information experts ou des chercheurs au gré de leurs tests et de leurs recherches. Nous allons donc nous intéresser à toutes les nouveautés de Google Scholar qu’il faut retenir, qu’elles soient annoncées officiellement par Google ou non.

Une meilleure capitalisation des résultats grâce à l’ajout d’une « Reading List »

Au début de l’année 2022, Google Scholar a annoncé le lancement d’une fonctionnalité « Reading List »/« liste de lecture » qui permet d’enregistrer des articles à lire plus tard.

Pour enregistrer des articles dans sa liste de lecture on cliquera sur « Enregistrer » disponible sous chaque référence bibliographique puis sur « Liste de lecture ». On retrouvera ensuite les articles sauvegardés dans l’onglet « Ma bibliothèque » puis « Liste de lecture ».

Une nouvelle rubrique pour visualiser le financement de la recherche

Autre nouveauté datant cette fois-ci de 2021 : l’ajout d’une nouvelle rubrique sur les pages de profils des chercheurs (cf. figure 1. Rubrique « accès public » des profils chercheurs)

Figure 1. Rubrique « accès public » des profils chercheurs

On rappellera que Google Scholar propose des pages de profils de chercheurs qui fournissent quelques informations sur le chercheur (affiliation notamment), la liste des articles indexés par Google Scholar qui lui sont rattachés et le nombre de citations dont ce chercheur a fait l’objet année par année pour ses articles.

La nouvelle rubrique indique combien d’articles publiés par ce chercheur devraient être en libre accès selon les exigences du ou des organismes qui ont financé la recherche et combien le sont réellement.

« Pour identifier les agences qui ont financé les recherches liées à la publication, le système d’indexation de Google Scholar extrait automatiquement les informations de financement des sections de remerciements des articles. Il va ensuite consulter leur politique d’accès. Pour les articles qui doivent répondre à la politique d’accès public, il essaie de trouver des versions de ces articles disponibles gratuitement sur n’importe quel site web (avec en priorité la version de l’éditeur). » (Source).

À titre d’exemple, les articles de recherche financés par l’INSERM doivent être déposés dans une archive ouverte au moment de la publication et mis en libre accès dans un délai maximum de 6 mois. Si Google ne trouve pas de version open access sur le Web, il met cet article en rouge dans sa rubrique pour indiquer qu’il n’est pas disponible alors qu’il devrait l’être.

Certains chercheurs parlent d’un « mur de la honte » visant à stigmatiser ceux qui ne respectent pas les exigences des organismes. D’autres indiquent que les données ne sont pas toujours exactes.

Le plus intéressant dans cette fonctionnalité pour les personnes qui font de la veille et des recherches d’information, ce n’est finalement pas de savoir si les articles sont en conformité ou pas, mais plutôt d’obtenir rapidement des informations sur le financement des articles et des recherches. Les informations de financement peuvent être indiquées à différents endroits dans l’article et il fallait donc par le passé passer en revue l’ensemble de l’article. En extrayant les données automatiquement, Google nous fait gagner du temps.

Un filtre pour limiter les résultats aux revues de littérature et revues systématiques

Google n’a jamais communiqué sur cette nouvelle fonctionnalité que nous avons découverte grâce au bibliothécaire académique singapourien Aaron Tay qui découvre régulièrement des fonctionnalités intéressantes et de nouveaux outils et en fait part sur son blog www.musingsaboutlibrarianship.blogspot.com.

Google Scholar a récemment ajouté un filtre appelé « Review articles » dans l’interface en anglais - mal traduit en français par « article de revue » (cf. Figure 2. Filtre « Articles de revues » dans Google Scholar).

En effet, le nom donné à ce filtre porte à confusion en français, car il ne s’agit nullement d’un filtre permettant de limiter à des articles parus dans des revues académiques revues par des pairs. Il s’agit en réalité d’un filtre permettant de limiter les résultats uniquement à des documents/articles qui proposent des revues de littérature, des revues systématiques ou des méta-analyses.

Figure 2. Filtre « Articles de revues » dans Google Scholar

Google n’a absolument pas communiqué sur ce nouveau filtre et il est impossible de savoir comment le filtre fonctionne et quels sont les critères pris en compte pour qu’un article soit intégré dans cette catégorie.

Trouver des chercheurs ayant plusieurs champs d’intérêt

Autre fonctionnalité méconnue sur laquelle Google n’a pas communiqué : la possibilité de rechercher des profils de chercheurs en combinant plusieurs champs d’intérêts, ce qui peut être très utile pour la recherche d’experts.

À titre d’exemple, on pourra rechercher des chercheurs qui sont à la fois spécialisés sur les microalgues et sur la biotechnologie

On se rendra donc sur la page de recherche dédiée aux profils de chercheurs :

www.scholar.google.fr/citations
Puis on recherchera par champ d’intérêt (ici microalgae ET biotechnology) : label:microalgae + label:biotechnology

Les profils de chercheurs répondant aux critères sont ensuite classés selon le nombre global de citations reçues par le chercheur du plus cité au moins cité (cf. figure 3. Rechercher des chercheurs avec plusieurs champs d’intérêts).

Figure 3. Rechercher des chercheurs avec plusieurs champs d’intérêt.

Quelques rappels utiles sur Google Scholar pour rechercher au mieux

Google Scholar reste un incontournable dans le cadre d’une recherche sur la littérature académique, mais il a ses limites.

Les atouts de Google Scholar

La taille de son index qui dépasse même celui des outils payants comme Scopus ou Web of Science ;
Sa gratuité ;
Sa capacité à indexer et permettre de rechercher sur le texte intégral des articles grâce à des partenariats avec de nombreux éditeurs ;
Sa bonne couverture dans des langues autres que l’anglais ;
Sa capacité à retrouver beaucoup d’articles citants/cités ;
Sa capacité à trouver des versions d’un article en libre accès sur le Web.

Les inconvénients de Google Scholar

La quasi-absence de filtres dans le moteur et de fonctionnalités avancées ;
Le nombre de résultats limités à 1000 ;
L’opacité de son algorithme et du classement des résultats ;
Une hétérogénéité des résultats avec des articles revus par des pairs et des articles parus dans des revues peu connues voire parfois des revues prédatrices.

Quand on recherche sur Google Scholar, on doit bien avoir conscience de ces défauts et il faut coupler la recherche avec d’autres outils pour avoir une vision plus complète.

Un paysage qui se redessine avec la disparition de plusieurs acteurs importants

Si Google Scholar continue d’occuper une place centrale dans le paysage académique, deux acteurs ont fait le choix de jeter l’éponge en l’occurrence Microsoft Academic et 1Findr.

Microsoft Academic, propriété de Microsoft et lancé en 2016, avait un positionnement bien particulier et misait sur la recherche sémantique et l’IA grâce à l’utilisation d’un Knowledge Graph (voir notre article « Les Knowledge Graphs vont-ils enfin révolutionner la recherche d’information professionnelle ? », Bases N° 394 - juillet/août 2021). Il était d’ailleurs utilisé comme source d’information principale pour de nombreux moteurs académiques et autres outils liés à l’IST.

Microsoft Academic a définitivement fermé ses portes à la fin de l’année 2021 et les raisons évoquées restent floues et peu convaincantes : Microsoft Academic aurait atteint les objectifs qu’il s’était fixés et c’était donc le bon moment pour Microsoft de concentrer son attention sur d’autres projets.

Derrière cette fermeture, on voit surtout toute la difficulté qu’ont les outils dits « sémantiques » ou dopés à l’IA pour s’imposer dans le monde académique. Meta, un outil de recommandation d’articles a lui aussi récemment fermé ses portes (voir notre article de blog « L’outil de veille scientifique Meta sacrifié sur l’autel de Facebook »), Google Scholar qui s’est un temps intéressé à ces questions a fait le choix de ne pas se diriger dans cette voie-là (alors qu’il le fait dans le son moteur Web) et d’autres ont essayé de commercialiser leurs produits sans succès (comme Semantic Scholar).

Sur ce sujet, on conseillera la lecture d’un article intitulé « The Business of Extracting Knowledge from Academic Publications » qui propose une analyse basée le témoignage d’une personne ayant tenté de mettre en place un outil de ce type sans succès.
L’auteur y explique que la valeur ajoutée d’un tel produit est loin d’être évidente et que cela intéresse avant tout les étudiants et les doctorants (qui sont encore novices finalement et n’ont pas de budget) et beaucoup moins les experts eux-mêmes qui ont déjà en tête toute une cartographie de leur domaine. De plus, il en conclut que l’innovation et la R&D ne reposent pas uniquement sur la littérature académique, loin de là et ces outils n’apportent donc pas suffisamment de valeur ajoutée et ne sont pas monétisables.

Le second, 1Findr avait été racheté par Elsevier en 2018 puis fermé en 2021. Là encore, les raisons réelles de la fermeture du service ne sont pas connues.

Les autres moteurs académiques font évoluer leurs modèles pour survivre

Parmi les moteurs qui réussissent à survivre, trois réussissent à tirer leur épingle du jeu : Lens, Dimensions et Semantic Scholar.

Ils évoluent très régulièrement et changent progressivement de modèle pour réussir à survivre.

Lens et Dimensions ont choisi une approche similaire avec une diversification des contenus au-delà de la simple recherche dans la littérature académique pure, mais surtout un passage à un modèle freemium ;
Semantic Scholar, comme tous les outils à base d’IA et de sémantique n’a pas réussi le virage vers un modèle freemium mais a choisi de se renforcer encore et toujours dans l’utilisation de l’IA.

Lens et Dimensions : des nouveautés et un passage à un modèle freemium

Lens

Au cours des derniers mois, Lens a lancé des versions institutionnelles payantes.

L’outil propose toujours un accès gratuit à la majorité des fonctionnalités pour les comptes individuels. Si on souhaite utiliser Lens dans un environnement commercial, il faudra par contre débourser 1000 $ par an. Pour les comptes institutionnels, l’outil reste gratuit pour les institutions à but non lucratif. En revanche, pour les entreprises souhaitant créer des comptes entreprises, l’abonnement débute à 5000 $ par an.
En termes de fonctionnalités, Il a également ajouté un filtre de recherche qui permet de limiter la recherche aux revues en open access qui ne facturent pas d’APC (article processing fee). Rappelons que certaines revues en open access facturent des frais de publication aux auteurs ou leurs institutions afin de mettre l’article en accès libre.

Pour en savoir plus sur la façon d’utiliser Lens efficacement pour sa veille et ses recherches, nous vous conseillons la lecture des articles « The Lens, un outsider au fort potentiel pour la recherche brevet gratuite » et « The Lens pour la littérature scientifique : des contenus mal valorisés », Bases N° 393 - juin 2021.

Dimensions

Le moteur académique Dimensions propose aujourd’hui plusieurs produits :

Il y a tout d’abord le produit original Dimensions, un moteur académique qui couvre toutes les thématiques. Il fonctionne aujourd’hui sur un modèle freemium.
En 2021, Dimensions a également lancé un moteur uniquement orienté sur les sciences de la vie et la chimie appelé Dimensions Life Science & Chemistry (payant). Pour cet outil, il a collaboré avec OntoChem dont il utilise les ontologies (40 millions de concepts, 100 millions de synonymes) pour aider à rechercher, structurer et analyser les contenus.
Autre nouveauté intéressante chez Dimensions, (le moteur académique généraliste freemium) : la dataviz avec l’intégration de l’outil VosViewer qui va permettre d’analyser les réseaux de citations et d’auteurs (cf. Figure 4. Outil de dataviz intégré à Dimensions). Cette fonctionnalité est disponible dans la version gratuite.

On y accède en cliquant sur la partie « Analytical Views » à droite des résultats de recherche puis en choisissant la catégorie « Researchers » puis l’onglet « Network ». On peut alors visualiser les réseaux entre les auteurs et les auteurs les plus prolifiques en lien avec sa question.

Figure 4. Outils de dataviz intégrés à Dimensions

Semantic Scholar : la voie de l’IA

Semantic Scholar a quant à lui choisi une autre voie : pas question de monétiser l’outil pas plus que d’introduire de la datavisualisation. L’accent continue d’être mis sur l’IA dans le produit.

Il a introduit une nouvelle fonctionnalité qui consiste à résumer automatiquement un article scientifique (en une ou deux phrases) et afficher ce résumé dans les résultats de recherche pour aider l’internaute à déterminer rapidement si un article peut l’intéresser ou non.
Il a également lancé des Research Feeds, c’est-à-dire des alertes/recommandations de contenus à partir des contenus sauvegardés dans sa bibliothèque Semantic Scholar (cf figure 5. Research feed : des alertes/recommandations de contenus à partir des contenus sauvegardés dans sa bibliothèque Semantic Scholar)
Semantic Scholar continue donc de croire au développement de l’IA et de la sémantique pour la recherche scientifique là où d’autres se sont récemment cassés les dents (Meta, Microsoft Academic).

On verra à l’avenir si ce choix s’avère payant.

Figure 5. Research feed : des alertes/recommandations de contenus à partir des contenus sauvegardés dans sa bibliothèque Semantic Scholar

Utiliser les différentes catégories d’outils pour un résultat optimal

Comme nous avons pu le voir dans cet article, les différents moteurs académiques du marché évoluent et prennent surtout des chemins différents : Google Scholar reste un produit à part sur le marché et les autres outils se divisent en deux catégories :

D’une part les moteurs scientifiques freemium qui incluent une plus grande diversité de documents et intègrent des fonctionnalités de dataviz ;
D’autre part, les moteurs dopés à l’IA qui pratiquent la recherche sémantique et la recommandation de contenus.

S’il n’est pas utile d’interroger tous les moteurs académiques, il est intéressant d’interroger un outil de chaque catégorie pour bénéficier de la valeur ajoutée intrinsèque à chaque type de moteur : Google Scholar bien sûr, couplé avec un moteur académique freemium et un outil dopé à l’IA, en choisissant à chaque fois le plus adapté à ses besoins et problématiques.

Et quand de nouveaux outils apparaissent (à l’image d’Elicit - voir notre article « Elicit, un nouveau moteur scientifique au banc d'essai » dans ce même numéro), on ne manquera de les tester pour voir s’ils peuvent venir s’intégrer dans son processus de recherche d’information.