Les nouveaux outils de dataviz pour explorer la littérature scientifique

Carole Tisserand-Barthole
Bases no
414
publié en
2023.05
3206
Acheter ce no
Tags
ist | dataviz | évaluation outils
Les nouveaux outils de dataviz pour explorer la littérature ... Image 1

Il y a quelques années, on avait pu voir émerger des outils d’exploration des réseaux de citations des articles scientifiques. Ces outils s’avèrent très utiles pour trouver des articles scientifiques pertinents que l’on n’aurait pas forcément identifiés lors d’une recherche par mot-clé classique et sont donc complémentaires aux moteurs académiques. 

Parmi cette première génération d’outils, il existait deux grandes catégories : ceux qui étaient visuels proposant donc une représentation graphique, et ceux qui étaient uniquement textuels

Voir notre article « La recherche de citations et de références boostées par l’IA et les “open citations” », Bases N° 369 - avril 2019.

Si les outils textuels ont bien résisté et ont aujourd’hui une place de choix dans le paysage de l’IST, les outils visuels n’ont pour la plupart pas eu le même destin. Parmi les outils de dataviz de première génération, on comptait des acteurs comme Citigraph, Yewno ou encore Citation Gecko, qui ont tous fermé leurs portes. Dans cette catégorie, seul VosViewer continue sa route et a été intégré très discrètement au moteur académique Dimensions.

Au cours des deux dernières années, une nouvelle génération d’outils visuels d’exploration des réseaux de citations est apparue, avec une petite dizaine d’acteurs cette fois-ci, toujours portée par l’amplification du mouvement de l’open (open access et open citations) dans le monde académique.

Dans cet article, nous dressons un panorama de ces différents outils et de leurs spécificités. Nous les avons également tous testés pour évaluer leur performance et vous aider à faire le bon choix.

Tour d’horizon des nouveaux outils de dataviz appliqués à l’IST

Au cours des dernières années, nous avons pu noter l’apparition d’une petite dizaine d’acteurs proposant de rechercher et analyser les réseaux de citations des articles scientifiques façon dataviz. On retrouvera ces différents acteurs dans l’infographie en figure 1. À cette liste s’ajoutait CoCites, un outil intéressant lancé en 2020, mais qui a cessé de fonc­tionner suite au décès de son créateur.

Si au départ, tous les outils de ce type étaient entièrement gratuits, force est de constater que les modèles ont rapidement évolué. On a d’un côté des outils complètement gratuits, souvent des projets personnels réalisés sur le temps libre qui revendiquent leur appartenance au mouvement de l’open et s’engagent à rester gratuits et de l’autre des outils qui sont devenus des produits à part entière avec des équipes derrière et qui fonctionnent sur des modèles freemiums.

Figure 1. Les nouveaux outils de dataviz pour explorer l’IST.

Avant d’entrer dans le détail de chaque outil, nous avons voulu comparer leurs corpus d’articles scientifiques et leurs intégrations éventuelles dans les outils classiques de l’information scientifique et technique. On constate que les corpus varient d’un acteur à l’autre (cf. figure 2), sans compter qu’ils utilisent tous des algorithmes différents pour classer et présenter les résultats, ce qui signifie que les résultats varieront sans aucun doute d’un outil à l’autre.

D’autre part, leur intégration dans les outils classiques reste très modeste et il faudra donc, dans la majorité des cas, se rendre sur l’interface de ces outils pour pouvoir les utiliser.

Figure 2. Corpus et intégrations des outils de dataviz.

Les outils de dataviz en détail

Regardons maintenant de plus près ce que chaque outil nous offre et leurs spécificités.

PURE Suggest

Cet outil disponible sur Github, mais que l’on peut tout de même utiliser sur une instance en ligne à l’adresse a été lancé en 2022. Il s’agit d’un projet personnel.

L’utilisateur peut rechercher les documents à intégrer par mot-clé ou en entrant directement les DOIs. L’outil recommande ensuite des articles connexes. Les suggestions sont fondées sur les liens des références et citations des travaux déjà sélectionnés et deviennent plus précises avec chaque article supplémentaire ajouté.

Citation Chaser

Citation Chaser est lui aussi un projet personnel disponible sur GitHub, et également accessible sur une instance en ligne, à l’adresse. Il a été lancé en janvier 2022.

L’internaute peut entrer plusieurs références d’articles scientifiques soit avec les DOIs, des identifiants Pubmed, CORE, etc., mais pas de mot-clé. Il peut ensuite visualiser les références, les citations et visualiser un graphe qui explore ce réseau de citations/références.

Local Citation network

Local Citation network est également un projet personnel proposé gratuitement sur GitHub et lancé par un étudiant allemand en 2019.

L’utilisateur entre les DOIs des documents dont il souhaite explorer le réseau de citations. L’outil propose alors 2 types de dataviz : une qui explore le réseau de citations et une autre le réseau d’auteurs.

L’outil propose également deux onglets « Incoming Suggestions » avec une liste des articles les plus cités par les articles que nous avons entrés dans l’outil et « Outgoing Suggestions » avec une liste des articles qui citent le maximum d’articles que nous avons entrés dans l’outil.

Citation Tree at Citation graph

Toujours dans la même veine de projets personnels, on citera Citation Tree et Citation graph, deux outils créés par la même personne, en l’occurrence Nicolas Loizeau, un étudiant en Phd à la New York University.

Le premier outil, Citation Tree fonctionne sur le même principe que les outils précédemment cités. L’utilisateur entre un DOI et visualise le réseau de références citées par cet article.

Le deuxième outil, Citation Graph permet quant à lui d’entrer une liste de DOIs et de visualiser les articles centraux sur cette thématique de recherche, de repérer des articles pertinents, mais en dehors de ce champ disciplinaire précis et d’identifier des articles similaires. Ce deuxième outil est donc plus dans la comparaison d’articles et permet en principe d’aller plus loin dans la découverte d’articles et d’explorer l’interdisciplinarité.

Inciteful

Inciteful donne l’apparence d’un outil beaucoup plus abouti que ceux précé­demment cités. Mais là encore il a été créé par une personne seule qui a lancé l’outil en 2020. Si l’outil est gratuit, le cré­ateur précise quand même que le dé­ve­loppement de l’outil et son maintien lui coûtent approximativement 500 $/mois et qu’il est probable qu’il introduise un système de dons volontaires dans les prochains mois.

L’outil est disponible à l’adresse suivante : inciteful.xyz.

Inciteful comprend en réalité deux outils distincts : Paper Discovery et Literature connector. D’autres outils seraient actuellement en développement.

Le premier est similaire aux outils que nous avons précédemment cités dans cet article. L’utilisateur entre le titre d’un document, son DOI, une URL Pubmed ou ArXiv et l’outil se charge ensuite de créer une fiche avec le réseau de citations.

Il est ensuite possible de filtrer cette dataviz par mot-clé, distance entre des documents ou année. L’outil propose également des rubriques :

  • « Similar Papers » qui liste des articles qui citent des articles que notre article initial avait lui-même cités. On sort donc du réseau qui se contente d’extraire uniquement les références/citations de l’article initial et permet donc d’aller plus loin dans le réseau, ce qui est intéressant ;
  • « Most Important papers » avec les articles les plus importants déterminés par l’algorithme ;
  • « Review Papers » qui listent des articles qui ont toutes les chances d’être des revues systématiques ;
  • « Recent Papers by the Top 100 Authors » ;
  • « The Most Important Recent Papers » ;
  • Top Authors ;
  • Institutions ;
  • Top Journals.

On notera que le site et le compte Twitter de l’outil proposent de nombreux guides d’utilisation et tutoriels.

Research Rabbit

Research Rabbit se situe dans la même veine qu’Insightful mais on a ici une petite équipe de trois personnes derrière le projet. L’outil a été lancé en 2021 et annonce qu’il restera toujours gratuit, mais qu’il propose un système de dons volontaires sur le modèle de Wikipédia.

Il est accessible à l’adresse suivante : researchrabbit.ai.

L’outil se décrit comme un « Spotify pour articles scientifiques ».

L’utilisateur ajoute des références soit avec le titre des articles, les DOIs, des mots-clés ou un identifiant PMID. L’outil les charge, permet de créer des collections et d’explorer des travaux jugés similaires (soit sous forme de liste ou de dataviz), mais aussi des travaux antérieurs ou postérieurs, mais aussi d’explorer les réseaux d’auteurs et propose des recommandations d’auteurs susceptibles de nous intéresser.

L’outil propose également une dimension collaborative avec la possibilité de participer à des collections ou de mettre des commentaires sur les collections d’autres personnes.

Enfin, il existe des fonctionnalités de veille avec la possibilité de créer des alertes pour être prévenus quand de nouveaux contenus en lien avec le thème de sa collection apparaissent.

Connected Papers

On entre maintenant dans la catégorie des outils freemiums. Connected Papers a été lancé en 2020 et se présente comme un outil permettant de trouver et explorer des articles scientifiques. À l’origine, il s’agit d’un projet entre amis en parallèle de leurs activités professionnelles respectives et l’outil était complètement gratuit.

Mais il y a peu Connected Papers a annoncé qu’il passait à un modèle freemium. Les fonctionnalités restent les mêmes dans la version gratuite, mais limitée à cinq graphes par mois. Les tarifs s’échelonnent ensuite entre 3 et 10 $ par mois.

Pour chaque création de graphe Connected Papers analyse environ 50 000 documents et sélectionne ceux qui ont la plus forte connexion avec le document d’origine. Le graphe présente ensuite les documents selon leur degré de similarité. Plus il y a de citations et de références en commun avec le document initial, plus celui-ci est considéré comme proche.

On entre donc un article scientifique (DOI, Urls dans ArXiv, Semantic Scholar ou Pubmed, titre du document) puis l’outil crée le graphe relationnel (Cf. Figure 3). On peut également visualiser séparément les travaux antérieurs ou postérieurs à ceux entrés dans l’outil.

Récemment, Connected Papers a introduit une nouvelle fonctionnalité : les graphes multi-origines. À partir de n’importe quel graphique, on peut sélectionner n’importe quel nœud et l’ajouter comme deuxième origine. Cela construira un nouveau graphique, où tous les nœuds (articles) qu’il contient sont sélectionnés par similarité avec les deux articles d’origine. On peut ensuite ajouter une troisième origine, une quatrième, et ainsi de suite. Cela permet d’affiner la dataviz et montrer précisément à l’outil le sujet qui nous intéresse.

Figure 3. Connected Papers

Litmaps

Litmaps existe depuis 2021 et est développé par une équipe. On notera que le fondateur de Citation Gecko, un autre outil de dataviz qui a récemment fermé ses portes, recommandait Litmaps comme alternative à son service.

L’outil fonctionne sur un modèle freemium. La version gratuite ne permet pas de créer d’alerte, propose des fonctionnalités de recherche basiques, ne permet d’entrer que 20 documents à analyser et limite la dataviz à un seul graphe avec 100 documents maximum. Il n’y a pas non plus de fonctionnalités de collaboration. La version à 10 $/mois permet quant à elle de lever la majorité de ces restrictions sauf les fonctionnalités collaboratives qui sont réservées à l’abonnement Team. Il existe également un abonnement Litmaps Enterprise dont on ne sait pas grand-chose.

Litmaps propose trois grandes fonctionnalités :

  • Search qui permet d’entrer un ou plusieurs DOI, un Pubmed ID ou arXiv ID, un mot-clé ou un nom d’auteur et de visualiser le réseau de citations à partir des documents initiaux
  • Discover pour aller plus loin dans la découverte d’articles avec des articles similaires, mais pas nécessairement directement reliés aux articles initiaux (Cf. Figure 4). La version payante permet de filtrer la dataviz par date, mot-clé ou nom d’auteur et d’aller encore plus loin dans l’exploration.
  • Visualize qui permet de visualiser les liens entre les différents articles entrés dans notre collection et comprendre comment ils s’articulent.

La version payante propose une fonctionnalité de veille qui permet de recevoir une alerte à chaque fois qu’un nouvel article en lien avec ses recherches sauvegardées est publié.

Figure 4. Litmaps

Lequel choisir ? Nous les avons testés

Pour les tester, nous sommes partis de six articles académiques repérés lors de notre veille générale sur la veille qui traitent de ChatGPT et des IA génératives appliqués à la recherche d’information. Comme le sujet nous intéresse, nous aimerions en repérer d’autres sur des thèmes similaires pour compléter notre connaissance du sujet.

Les articles sont les suivants :

  • Why Does ChatGPT Fall Short in Answering Questions Faithfully?
  • Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions
  • Evaluating Verifiability in Generative Search Engines
  • ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent
  • “Correct answers” from the psychology of artificial intelligence
  • Can ChatGPT Write a Good Boolean Query for Systematic Review Literature Search?

On notera que ces articles sont tous très récents (publiés fin 2022 et en 2023), mais ils sont tous disponibles en texte intégral sur ArXiv et sont donc en libre accès ainsi que leurs références bibliographiques. Nous avons recherché ces différents articles dans Google Scholar et nous avons pu constater que certains de ces articles, mais pas tous, avaient déjà été cités par d’autres (10/20 citations pour certains), ce qui devrait en principe permettre de pouvoir explorer le réseau de citations.

Nous avons donc entré les DOIs dans les différents outils et comme nous le supposions au départ, le résultat diffère grandement d’un outil à l’autre.

Seuls Connected Papers et Litmaps réussissent l’exercice avec brio. Ils arrivent à retrouver nos six documents et à nous proposer des dataviz intéressantes qui nous permettent d’identifier des articles pertinents que nous aurions eu peu de chances d’identifier avec une recherche classique.

Pour les autres, ce n’est clairement pas une réussite :

  • PURE Suggest n’arrive à extraire les citations d’aucun des six articles ;
  • Citation Chaser reconnaît trois des articles sur les six, mais n’arrive pas à en récupérer les références. Il arrive tout de même à nous proposer 3 citations d’articles, mais aucune ne s’avère pertinente au regard du thème qui nous intéresse ;
  • Inciteful ne retrouve qu’un seul de nos articles sans références ni citations ;
  • Research Rabbit retrouve les six articles, mais n’arrive pas à récupérer les citations ;
  • Location citation Network ne retrouve aucun article ;
  • Citation Tree non plus. À l’inverse, Citation Graph réussit à nous proposer un graphe relationnel, mais pratiquement aucun des documents proposés ne semble être en rapport avec le thème qui nous intéresse.

Plusieurs explications sont possibles. Les articles étant récents, ces outils n’ont peut-être pas de données suffisamment à jour pour fonctionner. On constate d’ailleurs que la plupart utilisent OpenAlex, qui est un projet récent et qui a probablement un corpus qui est encore loin d’être complet

Voir notre article OpenAlex, un nouveau moteur académique, Bases N° 413 - avril 2023


Notre avis :

D’après nos tests, Litmaps et Connected Papers sont bien meilleurs que leurs concurrents, mais ils sont payants. Si on peut se contenter des limitations de la version gratuite, on n’hésitera donc pas à se tourner vers ces outils. Quant à choisir entre les deux, difficile de les départager, car ils ont tous les deux leurs propres avantages et inconvénients.

Quand on n’a pas d’autres choix que de s’orienter vers des outils 100 % gratuits, on pourra se tourner vers les autres cités dans cet article et plus particulièrement Research Rabbit et Insightful qui sont, sur le papier, les plus aboutis, tout en ayant conscience que le résultat pourra être aléatoire (avec un taux de réussite faible pour des articles récents).