Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser - Dossier spécial Search solutions 2019

Carole Tisserand-Barthole
Bases no
376
publié en
2019.12
1496
Acheter ce no
Tags
Bing | recherche Web | Google | conférences salons
Comprendre les évolutions des moteurs Web généralistes pour ... Image 1

La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.

En comprendre le fonctionnement permet donc ensuite d’adapter ses stratégies et méthodes de recherche en fonction des évolutions récentes.

Au cœur de la recherche sémantique : bye bye recherche booléenne

Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.

Il est revenu en détail sur le foncti­onnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.


Lire aussi : 

Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs


Le moteur sémantique va devoir intégrer les fonctionnalités suivantes :

  • détection de la langue ;
  • détection et élimination des mots passe-partout ;
  • tokenisation (les mots, phrases et paragraphes sont détectés et regroupés) et lemmatisation (action de donner à un mot la forme neutre canonique qu’il a, par exemple, dans un dictionnaire) ;
  • capacité à taguer des morceaux de discours ;
  • analyse morphologique ;
  • extraction d’entités nommées et capacité à les mettre en relation avec un dictionnaire généraliste ;
  • identification de concepts et désambiguïsation
  • attribution d’une note au document et classification.

Pour l’extraction des entités, il y a tout d’abord l’extraction d’entités reconnues déjà présentes dans l’ontologie (lieux, marques, entreprises, etc.). Pour les entités non reconnues, le moteur utilise des indices notamment grâce aux termes environnants (comme par exemple l’hôpital Lariboisière pour deviner qu’il s’agit d’un hôpital, etc.) mais également du machine learning.

Lors de la restitution des résultats, le mo­teur sémantique fait également appel à ce qui est appelé chez NTENT des « experts » (quatre au maximum par requête), c’est-à-dire des sources spécialisées qui s’affi­chent en haut de la page de résultats. L’utilisation d’ « experts » ou non dépend de la question posée mais également du comportement observé des autres internautes ayant posé des questions similaires.

Si l’internaute recherche un restaurant, il peut alors s’agir de l’affichage d’un module Yelp avec des avis de consommateurs, pour la recherche sur des résultats sportifs, il peut s’agir d’un module issu d’un site spécialisé sur les résultats sportifs, etc.

L’intervenant indiquait d’ailleurs que l’un de leurs axes de travail était d’essayer de faire appel à des sources spécialisées de plus en plus adaptées à chaque problématique.

Impact sur la recherche d’information

Comprendre le fonctionnement de ce moteur sémantique, c’est aussi com­pren­dre un peu mieux celui des autres moteurs et notamment Google. Google lui aussi fait appel à des « experts » en choisissant d’afficher en haut des résultats des éléments issus de son moteur d’actualités, de vidéos, de Google Maps, etc.

Les moteurs l’ont bien compris, les ressources spécialisées sont les plus adaptées pour répondre aux questions des utilisateurs.

En tant que professionnel de l’infor­mation, il faut donc chercher toujours plus des sources et outils spécialisées les plus à mêmes de détenir les informations souhaitées et ne pas se limiter à des outils trop généralistes.

L’autre enseignement, c’est que les moteurs Web s’éloignent toujours plus de la recherche booléenne classique grâce à l’utilisation de la recherche sémantique et l’intégration toujours plus impor­tante de l’IA dans leurs algorithmes.

Et vouloir à tout prix entrer des requêtes booléennes dans des outils qui ne sont plus conçus pour cela, c’est prendre le risque de brider le moteur et ne pas bénéficier de toute la puissance de l’outil.

Bien évidemment, avec ces évolutions, il y a une perte de contrôle dans la recherche et l’internaute se retrouve à devoir faire confiance à l’outil.

Mais malheureusement, les profes­sionnels de l’information n’ont pas leur mot à dire et ils ne sont clairement pas leur cible prioritaire. Il n’y a pas d’autre choix que de s’adapter aux nouvelles façons de rechercher sur ces outils et surtout de ne pas s’y limiter.

Google s’attèle à mieux comprendre les besoins complexes des internautes

Cette année, la présentation de Google était avant tout destinée à des infor­maticiens, mais elle permettait de confir­mer le chemin pris par Google depuis quelques années.

La présentation montrait que par le passé le NLP (Natural Language Processing) et l’information retrieval étaient deux disciplines très séparées mais que le dé­veloppement du deep learning per­mettait dorénavant de rassembler ces deux éléments.

L’information retrieval est le domaine qui étudie la manière de retrouver des infor­mations dans un corpus. On traduit par « Recherche d’information » en français. Cependant il ne s’agit pas de re­cherche d’information du point de vue du documentaliste, veilleur ou bibliothécaire, mais du point de vue des informaticiens qui conçoivent des moteurs de recherche. C’est pour cette raison que nous utiliserons le terme anglais « information retrieval » qui est moins ambigu.

On retiendra surtout de cette intervention que Google considère qu’il était jusqu’à présent très bon pour trouver le passage intéressant d’une page qui répond à la question d’un internaute, mais qu’il n’était pas encore très adapté pour les besoins d’information complexes.

La combinaison du NLP (Natural Language Processing) et de l’information retrieval grâce au deep learning, pourrait permettre d’améliorer cela. Et c’est juste­ment ce que propose BERT, le nouvel algorithme de Google dont tout le monde parle depuis plusieurs semaines. Il est maintenant utilisé aux Etats-Unis et fonctionne depuis le 9 novembre dans 70 langues dont le français.

Google le décrit comme « l’une des plus grandes avancées de l’histoire du moteur de recherche ». BERT est une technologie d’intelligence artificielle qui consiste à analyser les mots d’une requête « en rela­tion avec tous les autres mots de la phrase, plutôt qu’un par un dans l’ordre ». Google comprendrait ainsi beaucoup mieux que par le passé l’intention derrière une requête.

Pour les besoins d’information complexes, le moteur doit aussi être capable de prendre en compte la mémoire à court et à long terme car ces besoins nécessitent un cheminement de la pensée, ce sur quoi travaille toujours Google. Mais d’après l’intervenant, cet aspect concernerait surtout la recherche vocale et son assistant intelligent.

Impact sur la recherche d’information

Difficile de mesurer aujourd’hui quel sera l’impact de BERT sur la recherche d’information professionnelle car son implémentation en France est on ne peut plus récente.

L’idée que Google puisse désormais répondre à des besoins d’information complexes peut évidemment faire peur car c’est le champ d’action même des professionnels de l’information.

Mais Google ne détaille pas précisément ce qu’il entend par besoin complexe et il y a de fortes chances que cela concerne plutôt la sphère grand public que des besoins d’informations en entreprise. Le fait de mentionner essentiellement la recherche vocale et l’assistant intelligent le montre bien.

Les quelques tests que nous avons effectués avec des requêtes en langage naturel semblent montrer une légère augmentation de la pertinence, des featured snippets plus souvent présents mais pas de quoi révolutionner complè­tement la recherche pro­fessionnelle sur le Web. Mais BERT n’enlève rien au fait que Google n’indexe qu’une infime partie du Web, le Web de surface et qu’il n’affiche jamais plus de 200/300 résultats par requête.

Pour tirer parti au mieux de BERT, mieux vaut entrer ses requêtes en langage naturel plutôt que sous la forme traditionnelle d’une combi­naison de mots-clés et d’opérateurs booléens.

Dès lors qu’on souhaite avoir une vision globale d’un sujet, Google ne peut toujours pas être le seul outil de recherche utilisé.

Bing se recentre sur l’entreprise

Du côté de Microsoft, il était question de la recherche d’information en entreprise.

Cela confirme ce que Microsoft annonçait au mois de Novembre en indiquant qu’il se recentrait sur la recherche en entreprise et que Bing serait désormais une brique totalement intégrée dans Windows et Edge. Bing deviendrait le point d’entrée principal dans l’entreprise permettant de chercher sur le Web mais également dans l’intranet, les emails, documents etc.

L’intervenant indiquait que les données en entreprise sont généralement peu utilisables car non structurées et non uniformisées. De plus, elles se retrouvent dans des silos (mails, documents, intranet, etc.).

Microsoft ambitionne, selon ses propres termes, d’aider les entreprises à passer du big data au big knowledge.

Impact sur la recherche d’information

Bing n’a jamais réussi à trouver sa place face à Google et il tente de renforcer son positionnement sur l’entreprise, déjà à l’œuvre depuis quelques années.

Même si cela n’était pas mentionné lors de cette intervention, Bing a récemment indiqué qu’il utilisait un algorithme de type BERT depuis quelques mois.

Alors qu’il était auparavant toujours possible d’utiliser des longues requêtes booléennes sur Bing, ce qui était utile en complément d’une recherche Google, il semblerait, d’après nos récents tests, que cela ne marche plus correctement.

La qualité des résultats semble très nettement en baisse lorsque l’on utilise une requête booléenne. En revanche, avec une requête en langage naturel, la pertinence semble plus élevée que par le passé mais toujours bien inférieure à celle de Google.

La valeur ajoutée de Bing dans un contexte de recherche d’information professionnelle est donc de plus en plus mince et se situera donc surtout dans ses fonctionnalités de recherche d’images plus avancées que la plupart de ses concurrents.