IA : un nouveau paradigme pour la recherche documentaire scientifique ?

François LIBMANN

Bases no

444

publié en

2026.02

3113

Cinquante ans de recherche booléenne : un modèle qui n’a guère varié

On peut dater à 1972 (date de début de commercialisation du serveur Dialog au sein de la société américaine Lockheed) la mise en place de la recherche dans des corpus de littérature scientifique en utilisant une logique booléenne sur des documents préalablement indexés.

À mesure que la puissance informatique devenait disponible, l’utilisation de cette logique booléenne a permis de construire des requêtes d’une très grande complexité combinant jusqu’à plus de 100 étapes.

Durant de nombreuses décennies, ce domaine de recherche s’est étendu grâce à l’enrichissement substantiel des corpus, notamment par la création de centaines de banques de données spécialisées disponibles sur divers serveurs, ainsi que par l’émergence de systèmes globaux tels que Scopus ou Web of Science .

De nouvelles fonctionnalités, comme les citations enchaînées ou la recherche de valeurs numériques, ont été ajoutées sans modification majeure du système de recherche.

L’arrivée de Google Scholar en 2004 marque d’une certaine façon la « dégradation » des systèmes de recherche puisque la requête devient ultrasimple, outre le fait d’être gratuite. Elle se fait dans un grand volume de documents, sans que l’on en connaisse précisément les contours, mais cela permet de recevoir dans presque tous les cas des réponses au moins approximatives.

La simplicité radicale de la recherche, la gratuité et le volume mis à disposition ont séduit de nombreux chercheurs et servi de prétexte à d’assez nombreuses directions d’entreprises pour couper l’accès aux serveurs payants et supprimer le service de documentation, les chercheurs étant supposés se débrouiller seuls avec Google Scholar.

Par ailleurs, l’essor de l’ open access a entraîné la création de nombreux sites offrant un accès libre à des informations scientifiques, avec des fonctionnalités de recherche booléenne, mais souvent peu avancées. Une autre solution de facilité, mais qui ne recherche que sur des volumes limités, et laisse dans l’ombre des pans entiers de données.

Lire aussi : Nous avons testé les contenus des différents outils de recherche d’information scientifique en accès libre , Netsources N°168, 2024.02.

Par ailleurs, l’apparition et le développement des serveurs de préprints, dont arXiv , le pionnier, a été lancé en 1991, remettaient en cause le principe de relecture préalable par les pairs, mais pas les façons de rechercher dans un corpus.

Ce n’est qu’en 2015 qu’est apparu Semantic Scholar qui semble être le premier outil mis à disposition à avoir utilisé l’IA pour la recherche dans la littérature scientifique. Nous y reviendrons ci-après.

Déjà abonné ? Connectez-vous...

Connexion