Les difficultés liées à l’identification des auteurs des publications scientifiques
On notera essentiellement des problèmes de translitération pour les auteurs asiatiques de plus en plus nombreux, l’aléa de la présence d’un éventuel deuxième prénom ou de son initiale, l’incertitude concernant la place du prénom avant ou après le patronyme. Par ailleurs les auteurs peuvent changer de nom (mariage ou divorce) changer d’affiliation, voire de spécialité. Il est donc souvent difficile d’identifier sans ambiguïté un auteur donné.
Plusieurs auteurs se sont intéressés à la question. Seth S. Leopold (1), par exemple, rappelle l’existence d’homonymes parfaits et indique que les noms les plus souvent rencontrés dans PubMed, respectivement aux Etats-Unis et en Chine sont J. Smith auteur/coauteur de 22 257 publications et W. Zhang de 26 279 publications.
D’après Véronique Decognet (2), deux tiers des auteurs ont au moins un homonyme (nom + initiales). Elle rappelle quelques noms courants tels que Lee, Smith, Garcia ou Martin et aussi qu’en Corée du Sud, Kim, Lee et Park représentent à eux seuls 45% des noms de famille.
Une typologie de plateformes assez variée
1er type de plateforme : les plateformes qui traitent leurs contenus
Pour un certain nombre de plateformes disponibles sur le marché, le corpus des auteurs qu’on y trouve correspond à l’ensemble des auteurs des articles/conférences présents ou référencés dans cette plateforme.
C’est la configuration la plus simple ; c’est celle que l’on trouve dans HAL ou Scopus. L’avantage est que la présence de ces auteurs au sein de la plateforme est justifiée par le fait qu’au moins une de leurs œuvres est présente ou référencée dans ladite plateforme. Il s’agit donc de « vrais » auteurs/chercheurs ayant éventuellement fait l’objet d’une sélection qualitative préalable.
Néanmoins tous les aléas d’identification ne sont pas levés, et en particulier il n’est pas toujours évident de réunir les différents signalements (un ensemble d’informations) d’un même auteur. Néanmoins, l’auteur en question peut, en général, prendre l’initiative de fusionner ses différents signalements.
2ème type de plateforme : les plateformes ouvertes
Un deuxième type de plateforme est constitué de plateformes ouvertes, c’est-à-dire non liées à un corpus de documents.
Une des plus connues et des plus « à la mode » actuellement est ORCID sur laquelle nous reviendrons. L’un des inconvénients majeurs dans ce cas, est que l’inscription est ouverte à tous, même à ceux qui n’ont rien publié ou qui ne souhaitent pas l’indiquer.
3ème type de plateforme : les plateformes qui récupèrent du contenu externe
Il existe aussi des cas intermédiaires où les plateformes moissonnent des données d’autres sites, par exemple des fichiers d’autorité, mais les signalements qu’on y trouve sont souvent incomplets.
On voit donc que la situation est très diversifiée. Il existe, en fait, un grand nombre de plateformes de recensement d’auteurs/chercheurs fondées sur des principes différents tant au niveau de leur alimentation que des informations proposées.
Bien sûr, un même auteur/chercheur peut être référencé sur plusieurs plateformes.
C’est ainsi qu’un agrégé français d’histoire et ingénieur de recherche au CNRS, possède un identifiant dans pas moins de dix systèmes différents, sachant que certains systèmes ont l’obligeance d’indiquer son identifiant dans au moins une partie des autres.
Même si nombre de chercheurs n’ont pas fait de démarche active pour figurer dans ces répertoires ouverts, on ne peut que les encourager à le faire car il paraît souvent opportun de favoriser sa propre visibilité.
Pour ceux qui souhaitent gérer au mieux la création de leurs profils on recommandera la lecture attentive de la plaquette : « Utiliser un identifiant chercheur pour gérer ses publications en 12 points » publiée par Marie-Claude Deboin, de la Délégation à l’information scientifique et technique du CIRAD dont la dernière mise à jour date du 15 février 2021 (3).
Elle recommande, à juste titre, à un auteur/chercheur de commencer par créer un identifiant ORCID.
Zoom sur ORCID, le plus connu
ORCID est l’abréviation de « Open Researcher and Contributor ID ». Il s’agit d’une organisation internationale, interdisciplinaire, ouverte, sans but lucratif qui est financée par ses organisations membres (associations, financeurs, éditeurs, organismes de recherche…). Elle a été créée en octobre 2012 par la communauté des chercheurs pour rendre service aux chercheurs et aux organisations contribuant à l’écosystème de la recherche.
Concrètement, chaque chercheur qui s’inscrit se voit attribuer gratuitement et de façon pérenne un identifiant unique auquel est lié un fichier dans lequel il peut faire figurer toute une série d’éléments : institutions successives d’affiliations, cursus d’enseignement, récompenses reçues, adhésion à des organisations, projets financés, publications, incluant les brevets, etc. Chacune de ces informations peut, au choix de l’auteur, être : librement accessible, réservée à certains organismes désignés ou seulement ouverte à l’auteur lui-même.
Cette identification ORCID est de plus en plus souvent imposée par des éditeurs, tels que Elsevier ou Springer ainsi que par certaines publications.
De plus, des liens existent avec certains sites ou agrégateurs de données scientifiques, permettant, par exemple, de transférer automatiquement certaines données de cette plateforme vers ORCID.
Quels volumes pour ORCID ?
Aujourd’hui, il existe plus de 11 millions de profils ORCID, mais malgré l’importance du chiffre, cet identifiant n’est pas autant utilisé que l’on pourrait le croire.
En effet, Christophe Boudry (4) a étudié un échantillon de 508 934 références d’articles publiés entre 2012 et 2020 et sélectionnées aléatoirement dans PubMed. Sur l’ensemble de ces références, pour seulement 70 531 d’entre elles soit 13,9 % au moins un des auteurs avait un numéro identifiant ORCID. Ce chiffre passe à 38,2% en 2020, le pourcentage ayant commencé à croître fortement à partir de 2016.
Vu autrement, le nombre total d’auteurs de cet échantillon est de 3 012 625 ce qui donne une moyenne de 5,9 auteurs par article. Sur l’ensemble des auteurs, 139 912 d’entre eux (soit 4,3%) ont un identifiant ORCID, là encore avec une augmentation nette à partir de 2016.
Cet article cite par ailleurs une étude de 2017 qui faisait apparaître que dans World of Science, sur la période 2000 - 2016, 19 % des articles indexés avaient au moins un auteur ayant un identifiant ORCID mais il est très probable que cette part ait augmenté depuis.
Christophe Boudry, déjà cité, est co-auteur d’une étude publiée en 2020 en particulier sur l’utilisation de différents services d’identification d’auteurs.
Sur 1 047 chercheurs de l’Université de Caen, 17,1% ont un identifiant ORCID ce qui est du même ordre de grandeur que les chiffres précédemment cités.
Les qualités et défauts d’ORCID
Si ORCID est l’un des systèmes ouverts les plus intéressants « sur le marché » bien qu’il soit gratuit, il n’est pas exempt de défauts structurels qui ne peuvent que lui nuire.
Le défaut majeur, qui est en même temps une facilité, est que la création d’un profil sur ORCID est gratuite et non contrôlée. N’importe qui peut donc créer un ou plusieurs profil(s). Une des causes est que certains éditeurs exigent de leurs auteurs un identifiant ORCID qui est lié à son adresse mail. Or cet auteur peut avoir plusieurs adresses mail et, par ailleurs, ces adresses changent quand il change de structure.
D’autre part, il n’y a aucune obligation d’indiquer les références de ses publications dans ORCID.
C’est ainsi qu’en 2020, 73,5% des profils ne donnaient aucune information sur des résultats de recherche alors qu’une des raisons de la création d’ORCID est de faciliter l’établissement de liens entre les chercheurs.
Par ailleurs, il n’y a pas de contrôle de la qualité des entrées et mettre à jour son profil pour un auteur prolifique est quelque peu fastidieux et prend un temps non négligeable même s’il existe des transferts automatiques depuis certaines autre plateformes.
En dépit de ces défauts, dont on espère qu’ils seront atténués, ORCID reste aujourd’hui, semble-t-il, le meilleur ou un des meilleurs systèmes d’identification d’auteurs dans le monde (il est totalement ouvert, gratuit et international), alors qu’il en existe au moins une bonne dizaine d’autres
La promotion d’ORCID par l’ABES
C’est la raison pour laquelle le MERSI (Ministère de l’Enseignement Supérieur de la Recherche et de l’Innovation) a mandaté le consortium Couperin.org en tant qu’administrateur et l’ABES comme coordinateur du consortium ORCID France qui a été créé fin 2019 et qui compte aujourd’hui plus de 40 membres.
Cela permet de concevoir des services basés sur ORCID et d’échanger sur ce service.
Si, avec l’identifiant ORCID, l’ABES entend promouvoir la visibilité internationale des chercheurs exerçant en France, elle reste garante des données d’autorité en s’appuyant sur IdRef (Identifiants et Référentiels pour l’Enseignement supérieur et la Recherche) qui est une application Web développée et maintenue par l’ABES (Agence Bibliographique de l’Enseignement Supérieur). Il faut noter que ce référentiel ne se limite pas aux chercheurs puisqu’y sont présents aussi des noms de collectivité, de famille, de marque, géographique, le titre normalisé d’une œuvre, etc. IdRef a vocation à être complète en ce qui concerne les chercheurs français, car un chercheur est supposé avoir soutenu une thèse et tous ceux qui ont soutenu une thèse sont automatiquement référencés dans IdRef.
Comme nous l’avons évoqué plus haut, il existe de nombreux systèmes d’identification/gestion d’auteurs. Nous allons en présenter une série.
Les autres solutions pour l’identification des auteurs scientifiques
Pour les repérer, nous avons repris les présentations des différentes plateformes, soit sur leur propre site, soit sur Wikipédia.
Reprenons les définitions données par le site d’HAL lui-même. HAL a été développée en 2001 par le Centre pour la communication scientifique directe (CCSD) du CNRS, dédiée au dépôt et à la diffusion d’articles de chercheurs publiés et de thèses. Les chercheurs sont issus des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. L’accès aux données est libre, mais pas nécessairement leur utilisation ou réutilisation (https://hal.archives-ouvertes.fr/).
« L’idHAL est un identifiant unique géré dans HAL. Il permet à un utilisateur authentifié, connu comme auteur dans HAL, de regrouper toutes ses publications, quelles que soient les différentes formes sous lesquelles son nom a pu être saisi (ex : Marie Dupont, M. Dupont, Marie Dupont-Martin, etc.) et d’en choisir une par défaut. L’idHAL regroupe les différentes formes auteur mais ne les fusionne pas ».
Par ailleurs les identifiants d’autres systèmes analogues et les URL correspondant sur les réseaux sociaux peuvent être associés à l’idHAL.
arXiv
arXiv est sans doute la plus ancienne plateforme d’archives ouvertes. Elle propose des prépublications électroniques d’articles scientifiques dans les domaines de la physique, des mathématiques, de l’informatique, de la biologie quantitative, de la finance quantitative, de la statistique, de l’ingénierie électrique et des systèmes, et de l’économie1 ; elle est accessible gratuitement (source : Wikipédia).
Depuis 2005, des authority records associent le compte d’un utilisateur aux articles qu’il a écrits.
Cependant ses premiers articles doivent être approuvés (endorsed) pour vérifier que l’auteur appartient bien à la communauté scientifique de « façon honnête et suivie » et que son article est bien au niveau des recherches en cours.
Pour les auteurs déjà reconnus, l’approbation est automatique.
Notons que l’ArXiv author identifier peut être lié à l’identifiant ORCID.
SCOPUS
SCOPUS référence plus de 75 millions d’articles (essentiellement) mais aussi de conférences ou de chapitres d’ouvrages tant dans le domaine des sciences dures que des SHS.
Un identifiant d’auteur est automatiquement créé dès qu’une publication de cet auteur est référencée dans SCOPUS. Cet identifiant est créé à partir des données de la référence. Un auteur peut donc avoir plusieurs identifiants. Il a néanmoins la possibilité de les regrouper en un seul. S’il a un numéro ORCID, il peut demander à SCOPUS d’envoyer automatiquement à ORCID la liste de ses publications référencées dans SCOPUS. Nous l’avons effectué et confirmons que cela fonctionne bien.
ISNI
L’ISNI (International Standard Name Identifier) est une norme ISO largement utilisée, disent ses producteurs, par des bibliothèques, des éditeurs, des gestionnaires de droit dans le monde entier.
L’ISNI est utilisé pour identifier de façon unique des personnes et des organisations engagées dans des « activités créatives ». Sont inclus, en particulier les pseudonymes, les noms de scène, etc.
La mission de l’ISNI International Agency (ISNI-IA) est de rendre largement public les noms de chercheurs, inventeurs, auteurs, artistes, éditeurs, … pour créer un identifiant unique afin de résoudre le problème de l’ambiguïté des noms.
11,1 millions d’individus sont recensés, tandis que 104 sources, dont l’ABES, alimentent ISNI.
Pour chaque personne, figurent ses « contacts », souvent des co-auteurs, le nom d’entreprises dans lesquelles il/elle travaille, les titres d’une partie de ses publications et des liens vers certains sites analogues. En revanche, cela n’est ni exhaustif ni toujours très précis (par exemple, on ne distingue pas les articles des ouvrages) et l’information n’est pas toujours très récente.
ResearcherID
ResearcherID est proposé par Clarivate Analytics et, en particulier le Web of Science. ResearcherID est lié à Publons créée en 2012 et acquis par Clarivate Analysis en 2017. Publons avait à l’origine pour but de mettre en valeur les articles d’évaluation par les pairs en donnant la possibilité de les laisser en accès libre.
C’est dans Publons que sont stockés depuis le 15 avril 2019 les ResearcherID, crées à l’origine par Web of Science, qui sont des fiches proposant un grand nombre d’informations sur des chercheurs, les publications bien sûr, importées en particulier du Web of Science et d’ORCID, les relectures d’articles, différents éléments chiffrés tels que le nombre de citations, etc.
Un chercheur a la possibilité d’ajouter à son profil des références d’articles non prises en compte dans Web of Science. Ce profil est d’ailleurs directement accessible à partir d’une référence de Web of Science.
Wikidata
Wikidata n’est pas, et de loin, centré sur les biographies et les publications des chercheurs qui ne sont qu’une petite partie de ce service.
Wikidata qui, comme Wikipédia, émane de la Wikimedia Foundation est un repository dans lequel on trouve des items, chacun ayant un label, et une description.
Les items peuvent potentiellement représenter tous les éléments du savoir humain, des concepts, des sujets (topics), des objets et des personnes. Les exemples donnés sur le site illustrent la variété des items : « 1988 Summer Olympics », « love », « Elvis Presley » ou « gorilla ».
Il n’empêche que l’on trouve des biographies détaillées de chercheurs même si ce n’est clairement pas l’axe principal de Wikidata.
Chaque item a un identifiant et Wikidata n’hésite pas à proposer, et même rêver, que cet identifiant devienne un « identifiant universel » utilisé par tous les sites analogues.
Il semblerait que cela n’est pas pour demain !
VIAF
Le service VIAF (Virtual International Authority File) est destiné aux bibliothèques et à leurs utilisateurs. Il entend simplifier l’accès aux principaux fichiers d’autorité de noms du monde entier sachant qu’il ne s’agit pas seulement de noms de personnes.
Les contributeurs du VIAF envoient régulièrement des données d’autorité avec lesquelles le VIAF établit des correspondances, des liens et des groupes.
Il est donc possible d’accéder, pour une entité donnée, aux fiches des contributeurs issus des bibliothèques contributrices.
Après plusieurs années de préparation, le consortium VIAF a été créé en août 2003 par la Library of Congress des Etats-Unis, la Deutsche Nationalbibliothek et OCLC. Ils ont été rejoints par la BnF (Bibliothèque nationale de France) en octobre 2007
Depuis, un très grand nombre de bibliothèques du monde entier sont devenues des contributeurs.
On notera que, au moins pour les noms de personnes, les fichiers ne sont pas très lisibles pour les non spécialistes et que, par ailleurs, ils sont souvent incomplets et imprécis (par exemple : pas de distinction entre ouvrage, publication périodique ou simple article).
En complément de ces plateformes, on rappellera qu’il existe d’autres moyens d’identifier et d’obtenir des informations sur des auteurs. On peut penser à LinkedIn, à Wikipédia, aux CV que les chercheurs mettent à disposition sur le web ouvert ou des portraits dans la presse. On citera aussi les plateformes ResearchGate et Academia.edu qui permettent aussi dans certains cas d’obtenir des copies d’articles.
(1) Seth S. Leopold Editorial: ORCID is a wonderful (but not required) tool for authors. Clinical Orthopaedics and Related Research (2016) 474:1083-1085 / DOI 10.1007/s11999-016-4760-0
(2) Véronique Decognet. Identifiants chercheur. Journée Open Access Week, Avignon université, Oct. 2019, Avignon
(3) Deboin, M.C. 2021 Utiliser un identifiant chercheur pour gérer ses publications en 12 points. Montpellier (FRA) : CIRAD, 8 p. hhtps://doi.org/10.18167/coopist/0010.
(4) Christophe Boudry: Availibility of ORCIDs in publications archived in PubMed, MEDLINE, a Web of Science Core Collection. Scientometrics, 15 février 2021. Doi.org/10.1007/s11192-020-03825-7