Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

Faut-il préférer l’opérateur site: de Google ou la création d’un moteur CSE ?

Carole Tisserand-Barthole
Bases no
390
publié en
2021.03
1830
Faut-il préférer l’opérateur site: de Google ou la création ... Image 1

L’opérateur site: sur Google est bien connu des professionnels de l’information et permet de rechercher uniquement sur un ou plusieurs sites web bien précis, ce qui en fait une fonctionnalité très précieuse.

La requête veille site:https://www.bases-netsources.com/ par exemple recherchera le terme veille sur les pages du site bases-netsources.com indexées par Google.

Google permet également la création de moteurs personnalisés appelés « Google CSE », pour Custom Search Engine (https://cse.google.com). L’utilisateur peut créer un moteur en entrant les sources qu’il souhaite interroger et peut ensuite créer des requêtes comme sur le moteur classique de Google.

Dans les deux cas, l’internaute recherche donc sur une sélection de sources et non sur l’intégralité du web.

Que l’on utilise l’opérateur site: ou un moteur CSE avec les mêmes sources, les résultats devraient donc être sensiblement les mêmes. Sauf qu’il n’en est rien…

Lors d’une récente conférence en ligne américaine intitulée « Internet Librarian Connect », l’une des intervenante, Mary Ellen Bates indiquait qu’il était plus efficace d’utiliser l’opérateur site: sur le moteur classique de Google que de créer un moteur Google CSE.

Nous avons voulu faire le test pour voir si ce constat s’appliquait également pour des requêtes en français. Vaut-il mieux utiliser l’opérateur site: sur le moteur classique de Google ou créer un moteur CSE ou bien finalement ces deux solutions s’avèrent-elles complémentaires ? C’est ce que nous avons cherché à déterminer dans ce nouvel article.

Sources et requêtes utilisées pour le test

Nous avons décidé de nous intéresser à des problématiques locales en interrogeant des sources spécifiques à la région rouennaise.

Pour cela, nous avons choisi 3 sujets :

  1. Le président du Conseil Régional Hervé Morin avec une requête simple Hervé Morin
  2. La société normande Novacel qui vient de créer une solution innovante pour désinfecter durablement les surfaces avec une requête simple : Novacel
  3. L’incident de l’usine Lubrizol qui avait eu lieu en septembre 2019 avec une requête simple : Lubrizol

Et nous avons sélectionné plusieurs médias et sites locaux sur lesquels faire porter nos requêtes, en l’occurrence :

- A l’Ouest Info (https://a-louest.info/ - archives uniquement car les publications ont cessé en 2020) ;

- Le site officiel de la ville de Rouen (https://rouen.fr/) ;

- Actu.fr Normandie (https://actu.fr/normandie/) ;

- France Bleu Normandie (https://www.francebleu.fr/normandie) ;

- Ouest France (https://www.ouest-france.fr/) ;

- Paris Normandie (https://www.paris-normandie.fr/) ;

- France 3 Normandie (https://france3-regions.francetvinfo.fr/normandie/) ;

- Tendance Ouest (https://www.tendanceouest.com/).

Sur Google, la requête prenait donc la forme suivante :

[Mot-clé] site:https://a-louest.info/ OR site:https://rouen.fr OR site:https://actu.fr/76actu/ OR site:https://france3-regions.francetvinfo.fr/normandie/ OR site:https://www.francebleu.fr/normandie/seine-maritime-76 OR site:https://www.ouest-france.fr OR site:https://www.paris-normandie.fr OR site:https://www.tendanceouest.com

Pour Google CSE, nous avons créé un moteur personnalisé comportant uniquement ces 8 sources.

Un principe similaire mais des résultats différents

On constate que, même si la logique est la même (on recherche exactement sur les mêmes sites), les résultats, eux, sont différents.

Dans certains cas, les résultats sont juste classés différemment. Mais dans d’autres cas, certains résultats apparaissent dans le moteur classique de Google et pas dans le CSE ou l’inverse. En utilisant une seule des deux méthodes, on risque donc de passer à côté d’un résultat potentiellement pertinent.

Et quelle que soit la requête, on voit que Google CSE fait ressortir plus de résultats anciens (parfois même datant de 2015) alors que Google favorise les résultats récents.

Pour la requête Hervé Morin (voir figure 1. plus bas), on constate par exemple que le moteur CSE ne fait ressortir sur la première page que des résultats issus de France 3 Normandie dont un de 2016. Alors que du côté du moteur classique de Google, les dix premiers résultats proviennent de 3 sources différentes parmi les 8 interrogées et le résultat le plus ancien date de septembre 2020.

Mais, hormis la question de date, la per­tinence est globalement au rendez-vous dans les deux cas et il y a des résultats pertinents uniques via les deux méthodes.

Faut-il privilégier l’opérateur site: ou le moteur CSE ?

Finalement, on ne peut que conclure qu’il est intéressant de combiner les deux approches quand on est dans une démarche d’exhaustivité et qu’on dispose du temps nécessaire pour le faire.

Avantages et inconvénients de l’opérateur site: Avantages et inconvénients de Google CSE
La commande site: permet d’afficher plus de résultats que Google CSE (200/300 là où Google CSE est limité à 100) ; Pas besoin de rentrer à chaque fois la liste de sites à interroger 
Entrer une longue liste de sites du type site:url1 OR site:url2 Or site:url3 est très fastidieux  Possibilité de rechercher sur une page précise ou une partie de site uniquement grâce notamment à l’utilisation possible de la troncature dans l’url (représentée par un *) 
Le moteur classique de Google limite le nombre de termes qu’il prend en compte dans une requête (32 termes maximum incluant les opérateurs). On ne peut donc pas entrer une très longue liste de sources ; Possibilité de classer les résultats par date (du plus récent au plus ancien), ce qui fait perdre en pertinence mais permet de repérer des résultats où le terme est mentionné brièvement ; Le classement par date a un autre avantage : celui de pouvoir, en tout cas théoriquement, faire de la veille en surveillant les nouveaux résultats
Le moteur classique privilégie les résultats récents peut inclure des résultats provenant de ses autres index et verticales (Actualités, Images, Vidéos, etc.) Limitation à 100 résultats et risque d’avoir des résultats un peu anciens

Google et Google CSE utilisent-ils les mêmes algorithmes de classement ?

Face aux différences de résultats que l’on peut avoir entre Google et Google CSE, on peut se demander si ces deux outils utilisent finalement les mêmes algorithmes de pertinence.

Les différences de résultats entre les deux interfaces ne sont pas nouvelles. Il y a 15 ans déjà, on retrouvait des messages sur le web et dans les forums d’internautes s’étonnant de cette disparité.

Google y apporte une réponse dans ses pages d’aide en expliquant que les moteurs CSE :

  • n’incluent pas certaines spécificités du moteur web de Google et notamment les « résultats personnalisés » ;
  • peuvent contenir un sous-ensemble de résultats de l’index Google si l’on inclut plus de dix sites (l’index utilisé ne serait pas nécessairement le même).

De notre côté, nous avions pu constater qu’il existait il n’y a encore pas si longtemps, des disparités sur la compréhension de la requête. Le moteur web classique de Google grâce à l’intégration de nouveaux algorithmes dopés à l’IA comprenait de mieux en mieux les requêtes en langage naturel alors que Google CSE avait beaucoup plus de mal.

Nous avons récemment refait des tests en entrant des requêtes en langage naturel et il semblerait que Google CSE ait désormais très bien intégré cette dimension.

La différence entre les deux outils reposerait donc aujourd’hui surtout dans des index parfois différents et quelques spécificités non disponibles sur Google CSE, tels que les résultats personnalisés.

FIgure 1: Google CSE

Figure 2 : Google Web classique

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...