Bases & Netsources - Accueil

L’expertise humaine qui donne du sens à l'IA

Europe PMC, une banque de données augmentée en sciences de la vie

François LIBMANN
Bases no
416
publié en
2023.07
8065
Europe PMC, une banque de données augmentée en sciences de ... Image 1

Il existe de très nombreuses banques de données bibliographiques de littérature scientifique. Selon les cas, les possibilités de recherche sont plutôt rustiques ou, au contraire, plus ou moins sophistiquées (indexation, opérateurs de proximité, troncatures, conversion des orthographes américaine et anglaises, reconnaissance des abréviations, recherche sur des valeurs numériques, liens citants/cités, recherche par structures chimiques, recherche dans plusieurs banques de données à la fois…).

Europe PMC va plus loin même si elle n’offre pas toutes ces possibilités et nous n’hésitons pas à la qualifier de banque de données augmentée car elle permet, d’une part, de focaliser la recherche sur certaines parties d’un article, par exemple les éléments de méthodologie ou les figures. Elle permet aussi, ce qui est original, d’établir, à partir du contenu d’une référence des liens avec plusieurs banques de données externes plutôt factuelles/numériques, spécialisées dans le domaine des sciences de la vie telles que ChEMBL-small molecules ou MGnify-Metagenomics.

Analyse et évaluation du contenu

Commençons par le contenu, totalement en open access qui est très diversifié tout en restant centré sur les sciences de la vie.

Europe PMC présente, d’une part, ses contenus d’une façon globale, chiffres régulièrement mis à jour :

  • 42,7 millions de références dont 35,9 millions venant de PubMed/Medline comme le nom de cette banque de données le laisse entendre. A noter que 70% d'entre elles ont un abstract ;
  • 9 millions d’articles en texte intégral ;
  • 0,92 millions de références de documents issues de la banque de données Agricola (qui en offre 8,3 millions). Les références les plus récentes apparaissent comme étant publiées en … 2 122. Vérification faite sur le site web, il s’agit bien de 2 023. La plus ancienne date de 1 885 ;
  • 4,2 millions de brevets provenant de la banque de données Espacenet de l’OEB (qui en propose 140 millions en tout) ;
  • 2 262 NHS guidelines qui sont des « evidence reviews ». Elles sont produites par le plus important organisme de santé au Royaume-Uni. On y accède spécifiquement de la façon suivante, qui est loin d’être intuitive (Cf. Figure 1.) : dans la boite de la recherche simple il faut entrer PUBLISHER:"nice" OR PUBLISHER:"national institute for health and clinical excellence" OR PUBLISHER:"national institute for health and care excellence"
  • 628 045 preprints qui proviennent de 31 serveurs de preprints parmi lesquels arXiv, agriRixv, Beilstein archives, bioRxiv, preprints.org, F100 research.

Figure 1. Interface de Europe PMC

La deuxième façon de présenter le contenu est aussi plus opérationnelle puisqu’elle permet de sélectionner une ou plusieurs source(s) parmi celles présentées dans une liste.

On y trouve :

  • Chinese Biological abstracts (CBA) qui propose 142 377 références qui ne sont pas disponibles dans Medline (on rappelle que Medline référence 359 249 documents en chinois). Le seul souci est qu’il y a bien longtemps que ce contenu n’est plus alimenté puisque les références les plus récentes datent du 8 aout 2013.
  • CiteXplore (CTX) qui propose 3705 références d’articles. Les plus récentes datent du 11 mai 2023 et les précédentes du… 22 décembre 2022. Ces références sont entrées manuellement par le EMBL-EBI, EMBL étant l’abréviation de European Molecular Biology Laboratory et EBI de European Bioinformatics Institute.
  • Les références de thèses qui sont au nombre de 53 644, mais, là encore, les documents référencés ne sont pas récents puisque la thèse la plus récente est de novembre 2012, la plus ancienne de janvier 1962. Ces références de thèses proviennent du répertoire de thèses anglaise ETHOS mais nous avons sélectionné les thèses dans les « Pub types » et non dans les filtres de sources. Après quelques tests il semble qu’au moins une grande partie des thèses vient effectivement d’ETHOS, mais, bizarrement, la date de publication n’est pas identique dans les deux systèmes. Par ailleurs, dans Europe PMC ne figurent que le prénom et l’abréviation du nom de l’auteur que l’on retrouve en entier dans ETHOS.Enfin, sans doute en raison de leur ancienneté, ces thèses ne sont pas accessibles sous forme numérique. Il faut s’adresser à l’Université de soutenance avec tous les aléas que cela suppose.

Il y a, ensuite, les « collections spéciales » qui regroupent des références issues de plusieurs sources telles que :

  • BMJ qui reprend, pour le titre de la publication, toutes les abréviations utilisées depuis 1 840 pour indiquer British Medical Journal. On y trouve près de 400 000 références, celles de 1 840 étant apparues dans « Prov Med Surg J » ;
  • « all manuscripts » qui référence plus d’un million d’articles « soumis directement par l’/les auteur(s) » dont 970 000 sont aussi dans la source PUBMED/MEDLINE, 74 000 qui sont aussi dans la catégorie preprint. Il en reste... 295 qui ont tous un code PMCID, ce qui signifie que l’article correspondant est accessible gratuitement en full text.
  • la source Eurofir qui propose 25 921 références dans le domaine de l’alimentation. Eurofir est l’abréviation de European Food Information. Il est dommage que les références les plus récentes datent de juillet 2018. Lors de nos tests, nous n’avons pu nous connecter au site du producteur.

Comme on le voit, le contenu est assez diversifié et l’antériorité importante, on regrettera, cependant que certaines sources ne soient plus mises à jour depuis plusieurs années comme Chinese Biological abstract, les thèses ou Eurofir. Cependant, leur intérêt n’est pas nul car elles peuvent être utiles dans au moins deux cas : au démarrage d’un étude approfondie sur un sujet ou lors d’une recherche visant à antérioriser un brevet.

Europe PMC par rapport aux autres bases de données

D’après ce qui est écrit dans le site, Europe PMC contient plus de documents que PubMed et PubMed Central (PMC) puisqu’il inclut, outre tous les abstracts de PubMed, l’essentiel du contenu de PMC ainsi que des références de preprints, de brevets, ou issues de la banque de données Agricola, etc.

Nous avons fait trois tests avec, respectivement, les mots aspirin, kidney et rural dans le titre, quelle que soit la date. Ces tests ont montré que le contenu de Europe PMC était supérieur de 3,8 à 6,4% à celui de PubMed. D’autre part, si l’on compare à Medline sur le serveur Dialog, dans deux cas sur trois Europe PMC offre plus de référence que Medline, par contre c’est l’inverse avec le terne kidney, l’écart étant de 3%.

Une autre problématique est d’avoir une idée de l’exhaustivité d’Europe PMC sur un sujet.

Nous avons comparé, avec les mêmes termes de recherche, les résultats de Medline dans Dialog avec les résultats d’autres banques de données biomédicales présentes sur Dialog, spécifiquement Embase, Biosis Previews, Derwent Drug File, EMCARE, International Pharmaceutical Abstracts et British Nursing Index, sachant que l’on trouve aussi des références pertinentes dans d’autres banques de données comme Scisearch.

Pour la recherche sur aspirin dans le titre, on trouve 20 000 références dans Medline et un total de 65 923 dans les autres. Ces chiffres deviennent 207 801 et 498 391 avec le terme kidney et 71 722 et 159 284 avec le terme rural.

Cela signifie que si Europe PMC, de même que PubMed, fournit un nombre significatif de réponses qui peuvent être considérées comme satisfaisant dans certains cas, il ne peut en aucun cas être considéré comme se rapprochant de l’exhaustivité.

L’avantage/l’intérêt évident est qu’il est gratuit pour la recherche et la visualisation des références, sachant que si beaucoup d’articles liés aux références sont gratuits, certains sont payants.

A l’inverse, les autres bases de données évoquées sont en général payantes, qu’on les interroge sur Dialog ou sur d’autres serveurs tels que STN, sauf Agricola librement accessible sur le web. La plupart des documents primaires sont payants mais une proportion croissante est maintenant en libre accès.

Les possibilités de recherche

Les possibilités de recherche offertes par Europe PMC sont assez variées, avec la possibilité de chercher dans un grand nombre de champs dont l’essentiel, à part la source, l’auteur et le titre accessibles directement, sont proposés dans un menu déroulant. La recherche se fait sur la référence et le texte intégral s'il est disponible.

Il y a, d’une part, une recherche simple dans laquelle on peut, si on le souhaite, mettre des préfixes tels que TITLE: ou PUBLISHER: et une recherche avancée.

On peut, bien sûr, chercher par date et l’on dispose des opérateurs booléens mais pas des opérateurs de proximité, accessibles depuis quelques mois sur PubMed dans le titre et l’abstract.

Une des originalités de cette base est de pouvoir chercher un terme dans une ou plusieurs « section(s) » spécifique(s) du document, à savoir les mots clés, ce qui n’est pas très original, mais aussi, ce qui l’est plus, dans « conclusion et travail futur », « références », « figures », « matériels et méthodes », etc.

De même, le choix du type de publication est très large puisque, outre ce que l’on trouve en général, on trouve biographie, article classique, dictionnaire, interview, « legal case », « preprint retiré », etc.

Plus original encore est le très grand nombre de liens fréquemment disponibles à partir d’une référence ou d’un article.

Toujours dans la recherche avancée, on dispose de la rubrique « datalinks and datacitations »

  • Le premier choix est « Find data citations in the abstract or full text of articles ». On peut alors sélectionner une ou plusieurs sources parmi près de 50 telles que EBISC (European Bank for Induced pluripotent Stem Cells) ou EMDB (Electronic Microscopy Data Bank). Par exemple, pour la première on trouve bien, en cliquant sur DATA à côté de l’article, un lien vers la banque de données.
  • Le deuxième choix est « Find articles cited in a database » pour lequel on choisit une ou plusieurs banques de données parmi 20 telles que « ChMBL Small molecules » ou « Interpro Protein Families ».

Ensuite, dans la rubrique « External Links » on peut choisir les références/articles qui ont des liens vers plus de 60 sites tels que Wormbase, Rat Genome Database mais aussi Wikipedia et HAL qui donne le lien vers le document. On trouve ces liens dans la rubrique DATA à la fin de l’article.

On peut, enfin, choisir dans la rubrique annotations, à droite de la référence, le(s) type(s) d’annotations (en fait la localisation et le « highlighting » du mot dans le texte) parmi 40 proposés : telles que Deasease et/ou chemicals et/ou experimental methods. On obtient pour chaque type sélectionné la liste des termes en faisant partie avec leur occurrence, un lien vers leur situation dans le document et un autre lien vers des informations externes concernant ce thème.Par exemple si l’on sélectionne Chemicals, on peut trouver carbon avec la possibilité de surligner le terme dans le texte de la référence et de suivre un lien vers la banque de données ChEBI.

On peut aussi choisir l’« Annotation provider » parmi onze tels que Metagenomics qui, lui propose des annotations plus complexes détaillées en plusieurs catégories, avec, pour la plupart des termes un lien vers le site EBI. Si on n'a pas fait de choix préalable, l'ensemble des annotations sont disponibles à partir de chaque référence..

Même si, pour quelques sites vers lesquels renvoient les annotations on tombe sur des « erreur 404 », on est impressionné par la richesse de ce site et de l’environnement qui lui est lié. Cela en fait un outil beaucoup plus intéressant que PubMed dont il intègre le contenu plus d’autres éléments.

Le seul avantage qu’a PubMed est la possibilité récente d’utiliser un opérateur de proximité dans le titre et l’abstract, possibilité qui n’existe pas dans Europe PMC.

On remarquera que les partenaires de Europe PMC sont plutôt anglo-saxons, en fait même plutôt britanniques. La France en est quasi absente ce qui explique sans doute sa faible notoriété dans notre pays.

Elixir Core

Europe PMC fait partie, avec une série d’autres banques de données, d'Elixir Core Data Resources qui est un ensemble de sources de données qualifiées de fondamentales pour les acteurs de la communauté étendue des acteurs des sciences de la vie et pour la préservation à long terme des données biologiques.

Ces banques de données sont au nombre de 22 avec, par exemple ChEBI qui est un dictionnaire d’entités moléculaires centré sur les « petits » composés chimiques ou « Orphadata science » qui propose des informations sur les maladies rares et les médicaments orphelins.

On en trouve la liste à l’adresse www.elixir-europe.org/platforms/data/core-data-resources.

Elixir est un organisme international qui regroupe 250 organismes de recherche dans 23 pays. Il coordonne et développe des ressources concernant les sciences de la vie pour que les chercheurs puissent plus facilement trouver, analyser et partager des données et des expertises et implémenter de bonnes pratiques. La mise à disposition de banques de données n’est donc, de loin pas la seule activité d’Elixir.

La France est, d’après le site, un membre provisoire depuis 2015.

Le représentant français est l’IFB (Institut français de bio-informatique) qui réunit toute une série de plateformes spécialisées. On remarque qu’il n’y a aucune mention de Europe PMC dans son site.

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...