Dialog devient une source pour l’open access avec la base Publicly Available Content

François LIBMANN
Bases no
394
publié en
2021.08
1021
Acheter ce no
Tags
Dialog | open access
Dialog devient une source pour l’open access avec la base ... Image 1

Les sources permettant d’obtenir des articles scientifiques et académiques en libre accès sont de plus en plus nombreuses. Les serveurs et bases de données classiques, après avoir longtemps été réticents à les inclure à leur corpus, commencent à les intégrer à leurs offres soit en les intégrant directement à leurs bases existantes, soit en créant des bases spécifiques dédiées à l’open access. C’est à cette dernière catégorie qu’appartient la nouvelle base de Dialog, appelée Publicly Available Content.

Un rapide panorama des sources pour trouver des articles en open access

Les serveurs payants (Dialog, Scopus, STN…) en référencent certains, mais il existe de nombreux sites en accès libre qui proposent gratuitement l'accès à des références, avec dans la plupart des cas, un lien vers le document original. Mais il faut noter que très souvent, seule une partie des documents eux-mêmes est en libre accès, les autres étant payants.

Les possibilités de recherche sur ces sites ne sont pas inexistantes mais plus ou moins développées.

On peut citer parmi les plus connus, sachant qu’il en existe de nombreux autres :

Bielefeld Academic Search Engine (BASE) qui propose plus de 240 millions de références de documents de toutes natures provenant de plus de 9 000 partenaires parmi lesquels environ 60 % sont en libre accès, la part de documents en libre accès pour chaque partenaire étant très variable ("variant de 1 à 100 %" selon l'éditeur).


Lire aussi :

Tour du monde des sites de thèses en accès libre


COnecting REpositories (CORE) propose plus de 209 millions de références dont 89 millions (environ 43 % en accès libre) provenant de plus de 10 000 partenaires.

On citera également Google Scholar, bien connu et beaucoup/trop utilisé, dont on sait qu’il ne donne aucun élément chiffré sur son contenu. Certains l’évaluent à plus de 300 millions de références, ce qui en ferait la ressource la plus volumineuse. Mais, là encore, les documents référencés ne sont pas tous gratuits.

On citera enfin les grands éditeurs tels qu'Elsevier dont le service ScienceDirect offre environ 1,4 million d’articles en libre accès, sans que l’on puisse connaître le nombre total d’articles disponibles.

De son côté Springer offre, dans son service SpringerOpen lancé en juin 2010, plus de 200 publications à comité de lecture ("peer-reviewed") entièrement en open access.

Mais dans SpringerLink, le site d'accès à l'ensemble des publications de Springer, si la plupart des articles référencés sont payants, une partie sont en open access, certaines publications offrant un panachage d’articles payants et d’articles en libre accès.

Par contre, 1findr d’Elsevier a cessé d’exister depuis quelques jours. Le site indique qu’« après avoir étudié attentivement l'usage et l'adoption des produits 1findr et 1foldr, Elsevier a décidé d'en cesser l'activité afin de mieux se concentrer à améliorer l'expérience utilisateur de produits plus en demande. 1findr et 1foldr ne sont désormais plus disponibles. Veuillez consulter Mendeley ou Scopus pour continuer à accéder à des articles de recherche pertinents et de grande qualité publiés dans des revues spécialisées de prestige. »

Comment limiter sa recherche aux documents en accès libre ?

Comme on l’a dit, dans la plupart des cas, ces sites, en accès gratuit pour la recherche et la visualisation des références, ne recensent pas uniquement des articles en libre accès.

Si l’on souhaite limiter sa recherche aux documents en libre accès, outre SpringerOpen que nous venons d’évoquer, on peut chercher directement dans certaines publications entièrement en libre accès ou directement dans des repositories.

On trouvera la liste des journaux publiant des articles tous en open access en consultant le Directory of Open access Journals (DOAJ - https://doaj.org/) qui permet, en fait de rechercher soit dans les titres des publications soit dans leur contenu.

Si l’on souhaite chercher directement dans les repositories, pour les identifier, on cherchera dans le Registry of Open Access Repositories (http://roar.eprints.org/) ou dans le Directory of Open Access Repositories (OpenROAR).

Notons que certains de ces sites proposent l’accès à des thèses, sachant qu’il existe, par ailleurs de plus en plus de sites spécifiques consacrés aux thèses (voir notre article « Tour du monde des sites de thèses en accès libre », BASES n°372 – juillet/août 2019) qui proposent gratuitement l’accès à un grand nombre de thèses sous forme électronique.

Une grande nouveauté chez Dialog Solutions : la base de données Publicly Available Content

Dialog Solutions a récemment mis à disposition de ses clients la banque de données « Publicly Available Content », par ailleurs également disponible sur la plateforme Proquest qui en est le producteur.

Les abonnés à Dialog bénéficient d'une gratuité totale pour cette banque de données, au niveau de la recherche (comme pour toutes les banques de Dialog), mais aussi ici au niveau de la visualisation des références avec résumés, ainsi que pour les articles eux-mêmes.

Le gros avantage de cette mise à disposition est que l’on dispose du langage d’interrogation de Dialog beaucoup plus puissant que ceux utilisables sur les sites cités plus haut.

Cette banque de données propose près de 5 millions de références de documents parus depuis 1960, mais 2 500 seulement sur la période 1960 à 1970. Ces documents proviennent de plus de 3 500 sources. 96 % sont en anglais et seuls … 12 225 (soit 0,22 %) sont en français.

Sur l’ensemble, 99 % proposent un accès gratuit au texte intégral du document, et 49,5 % proviennent de revues peer-reviewed. De plus, environ 50 % sont des publications académiques.

On notera qu’une grande partie de la base (près de deux millions de documents soit 35 %) reprend le contenu quasi complet d’ArXiv, le pionnier de l’open access et plus de 250 000 documents (4,6%) le contenu de PLOS (Public Library of Science) au contenu très biomédical.

Les possibilités de recherche dans Publicly Available Content

Nous avons dit plus haut que cette base bénéficiait de la puissance du langage de Dialog.

Dans cette base, on peut chercher dans tous les champs, y compris le texte complet du document lui-même, présent, comme on l’a dit, dans la quasi-totalité des cas. Il suffit de ne pas mettre de préfixe devant les termes de recherche.

C’est bien pour une recherche dans le texte intégral que les opérateurs de proximité et la possibilité de combiner les étapes de recherche permettent de réaliser une recherche très performante.

Si on veut chercher, au moins dans une première étape, hors du texte intégral, il suffit de mettre le préfixe ALL devant les termes de recherche.

Mais attention, il y a là une subtilité. En effet, pour un utilisateur habituel de Dialog, il paraît évident que le système cherche dans titre, auteur(s), affiliation(s), abstract et indexation.

Or nous avons fait des tests en cherchant avec le mot airbag* et nous avons été étonné de trouver certaines références où le terme de recherche n’apparaissait dans aucun de ces champs.

Le service assistance que nous avons consulté nous a fait très judicieusement remarquer que dans la fiche présentant la base, il était indiqué que si l’on utilisait le préfixe ALL, le moteur cherchait dans tous les champs sauf le fulltext. Or dans cette base, la structure XML contient au moins un autre champ très discret baptisé « imagecaption » constitué des légendes des illustrations des figures figurant dans l’article et, effectivement, dans cette référence, le terme airbag apparaît dans la légende de la figure 5.

Nous avons eu également quelques soucis de visualisation en format KWIC (KeyWords In Context). En cas de problème, rappelons que la fonction ctrl + f permet de visualiser les termes dans un document.

Par ailleurs en termes de contenu, nos tests ont fait apparaître que si de nombreux documents trouvés dans des sites évoqués au début de cet article ne se trouvaient pas dans Publicly Available Content, la réciproque est également vraie.

Au final, il ne faut surtout pas se priver d’utiliser cette banque de données si l’on veut faire de recherches multi sources en privilégiant les documents en accès libre.