Sources et requêtes utilisées pour le test
Nous avons décidé de nous intéresser à des problématiques locales en interrogeant des sources spécifiques à la région rouennaise.
Pour cela, nous avons choisi 3 sujets :
- Le président du Conseil Régional Hervé Morin avec une requête simple
Hervé Morin
- La société normande Novacel qui vient de créer une solution innovante pour désinfecter durablement les surfaces avec une requête simple :
Novacel
- L’incident de l’usine Lubrizol qui avait eu lieu en septembre 2019 avec une requête simple :
Lubrizol
Et nous avons sélectionné plusieurs médias et sites locaux sur lesquels faire porter nos requêtes, en l’occurrence :
- A l’Ouest Info (https://a-louest.info/ - archives uniquement car les publications ont cessé en 2020) ;
- Le site officiel de la ville de Rouen (https://rouen.fr/) ;
- Actu.fr Normandie (https://actu.fr/normandie/) ;
- France Bleu Normandie (https://www.francebleu.fr/normandie) ;
- Ouest France (https://www.ouest-france.fr/) ;
- Paris Normandie (https://www.paris-normandie.fr/) ;
- France 3 Normandie (https://france3-regions.francetvinfo.fr/normandie/) ;
- Tendance Ouest (https://www.tendanceouest.com/).
Sur Google, la requête prenait donc la forme suivante :
[Mot-clé] site:https://a-louest.info/ OR site:https://rouen.fr OR site:https://actu.fr/76actu/ OR site:https://france3-regions.francetvinfo.fr/normandie/ OR site:https://www.francebleu.fr/normandie/seine-maritime-76 OR site:https://www.ouest-france.fr OR site:https://www.paris-normandie.fr OR site:https://www.tendanceouest.com
Pour Google CSE, nous avons créé un moteur personnalisé comportant uniquement ces 8 sources.
Un principe similaire mais des résultats différents
On constate que, même si la logique est la même (on recherche exactement sur les mêmes sites), les résultats, eux, sont différents.
Dans certains cas, les résultats sont juste classés différemment. Mais dans d’autres cas, certains résultats apparaissent dans le moteur classique de Google et pas dans le CSE ou l’inverse. En utilisant une seule des deux méthodes, on risque donc de passer à côté d’un résultat potentiellement pertinent.
Et quelle que soit la requête, on voit que Google CSE fait ressortir plus de résultats anciens (parfois même datant de 2015) alors que Google favorise les résultats récents.
Pour la requête Hervé Morin
(voir figure 1. plus bas), on constate par exemple que le moteur CSE ne fait ressortir sur la première page que des résultats issus de France 3 Normandie dont un de 2016. Alors que du côté du moteur classique de Google, les dix premiers résultats proviennent de 3 sources différentes parmi les 8 interrogées et le résultat le plus ancien date de septembre 2020.
Mais, hormis la question de date, la pertinence est globalement au rendez-vous dans les deux cas et il y a des résultats pertinents uniques via les deux méthodes.
Faut-il privilégier l’opérateur site: ou le moteur CSE ?
Finalement, on ne peut que conclure qu’il est intéressant de combiner les deux approches quand on est dans une démarche d’exhaustivité et qu’on dispose du temps nécessaire pour le faire.
Avantages et inconvénients de l’opérateur site: | Avantages et inconvénients de Google CSE |
La commande site: permet d’afficher plus de résultats que Google CSE (200/300 là où Google CSE est limité à 100) ; |
Pas besoin de rentrer à chaque fois la liste de sites à interroger |
Entrer une longue liste de sites du type site:url1 OR site:url2 Or site:url3 est très fastidieux |
Possibilité de rechercher sur une page précise ou une partie de site uniquement grâce notamment à l’utilisation possible de la troncature dans l’url (représentée par un *) |
Le moteur classique de Google limite le nombre de termes qu’il prend en compte dans une requête (32 termes maximum incluant les opérateurs). On ne peut donc pas entrer une très longue liste de sources ; | Possibilité de classer les résultats par date (du plus récent au plus ancien), ce qui fait perdre en pertinence mais permet de repérer des résultats où le terme est mentionné brièvement ; Le classement par date a un autre avantage : celui de pouvoir, en tout cas théoriquement, faire de la veille en surveillant les nouveaux résultats |
Le moteur classique privilégie les résultats récents peut inclure des résultats provenant de ses autres index et verticales (Actualités, Images, Vidéos, etc.) | Limitation à 100 résultats et risque d’avoir des résultats un peu anciens |
Google et Google CSE utilisent-ils les mêmes algorithmes de classement ?
Face aux différences de résultats que l’on peut avoir entre Google et Google CSE, on peut se demander si ces deux outils utilisent finalement les mêmes algorithmes de pertinence.
Les différences de résultats entre les deux interfaces ne sont pas nouvelles. Il y a 15 ans déjà, on retrouvait des messages sur le web et dans les forums d’internautes s’étonnant de cette disparité.
Google y apporte une réponse dans ses pages d’aide en expliquant que les moteurs CSE :
- n’incluent pas certaines spécificités du moteur web de Google et notamment les « résultats personnalisés » ;
- peuvent contenir un sous-ensemble de résultats de l’index Google si l’on inclut plus de dix sites (l’index utilisé ne serait pas nécessairement le même).
De notre côté, nous avions pu constater qu’il existait il n’y a encore pas si longtemps, des disparités sur la compréhension de la requête. Le moteur web classique de Google grâce à l’intégration de nouveaux algorithmes dopés à l’IA comprenait de mieux en mieux les requêtes en langage naturel alors que Google CSE avait beaucoup plus de mal.
Nous avons récemment refait des tests en entrant des requêtes en langage naturel et il semblerait que Google CSE ait désormais très bien intégré cette dimension.
La différence entre les deux outils reposerait donc aujourd’hui surtout dans des index parfois différents et quelques spécificités non disponibles sur Google CSE, tels que les résultats personnalisés.
FIgure 1: Google CSE
Figure 2 : Google Web classique