Interroger d’autres moteurs : plusieurs considérations à prendre en compte au préalable
L’efficacité de l’algorithme
Premier élément important : chaque moteur dispose de son propre algorithme propriétaire, ce qui conduit nécessairement à une évaluation différente des informations, des sites, des pages et de leur pertinence. Google produit généralement de bons résultats en réponse à une question donnée mais il y a des cas ou des sujets sur lesquels ses concurrents peuvent être plus performants.
Ainsi si une recherche sur Google ne produit pas les résultats escomptés, on aura tout intérêt à interroger ses concurrents. Car ce n’est pas parce que l’information n’est pas visible sur Google qu’elle n’existe pas.
Personnalisation et respect de la vie privée
Ce n’est un secret pour personne, Google personnalise les résultats en fonction de l’historique et des préférences de recherche de l’utilisateur. L’utilisateur est donc de plus en plus enfermé au sein d’une bulle informationnelle créée par Google pour répondre à ses besoins mais aura de plus en plus de mal à visualiser des résultats et informations en dehors de sa sphère habituelle.
D’autres moteurs vont, quant à eux, moins loin dans cette personnalisation voire même réfutent complètement cette notion et mettent en avant le respect de la vie privée de leurs utilisateurs. Sur Google, effectuer une recherche 100% « neutre » est un mythe tandis que sur certains moteurs alternatifs, il s’agit bien d’une réalité (voir Netsources n°123 - Juillet/Août 2016 - « Géolocalisation : peut-on faire une recherche « neutre » avec Google et par quels moyens »).
Pour sortir de cette bulle, on pourra donc interroger d’autres moteurs.
Évolution de la recherche vers la sémantique
Comme nous avons pu le voir récemment dans BASES (« La mort annoncée de la recherche booléenne ? » - Bases n°340 - Septembre 2016), Google utilise de plus en plus la sémantique en essayant notamment d’interpréter les intentions de l’utilisateur (en recherchant notamment automatiquement des synonymes et termes proches), ce qui génèrera nécessairement des résultats différents d’un moteur plus classique basé sur des requêtes booléennes.
Notons que Bing se dirige également dans cette voie-là.
Interroger des moteurs encore tournés vers la recherche booléenne classique peut donc produire des résultats bien différents de ceux obtenus par Google.
Des fonctionnalités de recherche qui diffèrent
Rappelons également que même si Google propose des fonctionnalités de recherche similaires à ses concurrents quoique parfois légèrement supérieures (mais bien loin de ce qui peut être proposé sur les serveurs, agrégateurs de presse, bases de données et encore outils de veille), il y a tout de même certaines fonctionnalités pourtant intéressantes et utiles qui sont absentes chez le géant américain.
A titre d’exemple, l’opérateur de proximité AROUND(n)
pour rechercher des termes éloignés de n mots maximum, qui existe bien chez Google mais ne fonctionne pas correctement, fonctionne en revanche bien chez Yandex.
Les principales alternatives à Google
Il existe de nombreux moteurs de recherche sur le marché. Beaucoup se sont cassés les dents face au géant Google et ont vite renoncé. D’autres, nombreux, ont fait le choix de se spécialiser sur certains types de contenus et thématiques afin de ne pas être en concurrence frontale avec ce dernier.
Nous avons choisi de nous intéresser ici aux moteurs alternatifs qui jouent dans la même cour que Google en proposant une recherche généraliste sur le Web avec une liste de résultats composée de pages Web.
Après un tour d’horizon du marché, nous avons éliminé un certain nombre de concurrents qui n’utilisent en réalité pas leur propre index ou qui sont des moteurs de réponses plus que des moteurs de recherche (Quora ou encore Wolfram Alpha).
Au final, nous avons sélectionné 4 moteurs :
- Bing bien sûr, le moteur de recherche de Microsoft qui est sur le marché depuis 2009 ;
- DuckDuckGo dont le créneau est le respect de la vie privée et qui existe depuis 2008 ;Lors d’une recherche le moteur interroge son index mais également Yandex, Yelp, et Bing ainsi que de nombreuses autres sources (plus de 400 d’après le moteur lui-même) ;
- Qwant, un moteur de recherche français lancé à l’été 2013 qui prône également le respect de la vie privée. Il avait été longuement critiqué à ses débuts pour la forte ressemblance entre ses résultats et ceux de Bing et une nouvelle version a été lancée au printemps 2015 ;
- Yandex, le moteur de recherche russe qui surpasse Google en Russie et qui existe depuis 1997. Il propose notamment un système d’« aléatoirité » dans ses résultats afin de donner plus de visibilité à des sites qui ne ressortent habituellement pas dans les résultats. Des pages a priori pertinentes pour la recherche mais qui n’apparaissent jamais sur la première page sont mises en avant. Le moteur analyse ensuite les réactions des internautes vis à vis de ces liens (clic ou non) et peuvent augmenter son score/ ranking à l’avenir.
Cas pratique sur plusieurs recherches
Nous avons donc décidé d’interroger Google et ces quatre moteurs et de comparer leurs résultats sur trois recherches distinctes afin de voir s’il existait beaucoup de recoupements ou au contraire très peu. Nous avons choisi de comparer dans un premier temps les 10 premiers résultats soit la première page de résultats à laquelle se limite généralement un internaute lambda. Cependant, les professionnels de l’information ou toute personne sensibilisée à la veille consultant généralement plus de résultats, nous avons analysé dans un second temps les 100 premiers résultats de chaque moteur lorsque cela était possible.
Pour être le plus « neutre » possible (même si nous savons que la neutralité pure n’existe pas surtout chez Google), nous avons adopté le même mode de fonctionnement en entrant la même requête dans chaque moteur et en prenant bien soin de n’utiliser que des fonctionnalités présentes sur tous les moteurs.
Nous avons privilégié l’interface en français quand elle existait, ce qui est le cas pour Google, Bing et Qwant.
Nous avons également utilisé le même navigateur internet, en l’occurrence Chrome et nous sommes déconnectés de tous les services web comme le compte Google par exemple afin de limiter autant que possible la prise en compte de nos préférences et historique de recherche dans les résultats.
Nous avons extrait les 100 premiers résultats de Google et Bing grâce à un plugin Chrome appelé Mozbar et les avons intégrés à un fichier Excel. Pour DuckDuckGo, nous avons réalisé cette opération manuellement pour les 100 premiers résultats.
Qwant n’affiche quant à lui que 50 résultats Web par requête et, pour Yandex, nous nous sommes limités à 50 résultats car les tests effectués ont montré qu’au-delà, les résultats étaient généralement très peu fiables (nombreux liens ou fichiers qui n’existent plus notamment).
Nous avons ensuite comparé les urls indexées dans les 10 et 100 premiers résultats de chaque moteur grâce à une fonction d’Excel.
Moteur alternatif |
Nombre de résultats communs avec Google parmi les 10 premiers |
Nombre de résultats communs avec Google parmi les 100 premiers |
Nombre de résultats communs avec Google parmi les 50 premiers |
Bing |
4 |
14 |
- |
Qwant |
4 |
9 |
- |
Yandex |
4 |
- |
7 |
DuckDuckGo |
3 |
- |
12 |
Figure 1. Recoupements entre Google et ses concurrents pour la requête n°1
Recherche n°1 sur un indicateur économique : Le PMI en Afrique du Sud
Purchasing manager’s Index est un indicateur sur l’activité manufacturière d’un pays. Ce chiffre n’est pas difficile à trouver.
La requête était la suivante sur tous les moteurs : manufacturing PMI south africa
Tous les moteurs identifient bien la donnée en question dès les premiers résultats. Mais à notre grande surprise le taux de recoupement est très bas (Figure 1.).
On constate d’ailleurs que la plupart des résultats communs se situent dans les premières pages de résultats. Plus on avance dans les pages de résultats, moins on retrouve de pages communes entre Google et ses concurrents.
En revanche, on remarque une forte similitude entre les résultats de Bing, DuckDuckGo et Qwant. Yandex quant à lui propose des résultats très différents mais pas toujours très pertinents.
Recherche n°2 sur une personne : Nicolas Wertans, nouveau PDG de Ford France
La requête était la suivante sur tous les moteurs : Nicolas Wertans
Là encore le taux de recoupement entre Google et ses concurrents est très faible.
Sur les 10 premiers résultats :
- Bing : 4 résultats communs
- DuckDuckGo : 4 résultats communs
- Qwant : 4 résultats communs
- Yandex : 0 résultat commun
Lorsqu’on intègre plus de résultats, on compte 28 résultats/100 communs pour Bing, 24/100 pour DuckDuckGo et 17/50 pour Qwant. Nous n’avons pas poursuivi les tests au delà des dix premiers résultats pour Yandex car les résultats étaient tous hors-sujet (il recherchait tous les Nicolas célèbres comme Nicolas Cage, etc.).
On constate que Bing et Qwant ont des résultats 100 % identiques sur les 50 premiers résultats et DuckDuckGo n’est pas bien loin de la copie conforme non plus.
Recherche n°3 sur un marché (chiffres-clés, statistiques, etc.): le marché de l’huile de palme en Indonésie
Figure 2. Pourcentage de recoupement des moteurs par rapport à Google sur les 10 premiers résultats
La requête était la suivante sur tous les moteurs : palm oil market indonesia
Globalement, tous les moteurs proposaient des résultats intéressants et pertinents, même si parfois un peu datés. Encore une fois, les résultats de Bing, Qwant et DuckDuckGo sont proches et ceux de Yandex très différents de tous ses concurrents.
Pour les dix premiers résultats, ils ont tous 4 résultats communs avec Google mais pas nécessairement les mêmes. Et au-delà, Bing et DuckDuckGo ont 13 résultats/100 communs avec Google, Qwant 8/50 et Yandex 6/50.
Au final pour nos trois exemples, le taux de recoupement avoisine généralement les 40% sur la première page de résultats (Figure 2.). Généralement ce taux baisse, sauf dans certains cas, quand on compare les 50 voire les 100 premiers résultats (Figure 3.).
Figure 3. Pourcentage de recoupement des moteurs par rapport à Google sur les 50 premiers résultats
Avant de terminer ce cas pratique, nous avons voulu juger brièvement de la pertinence des résultats de ces différents moteurs en recherchant une information précise dont nous savons, par expérience, qu’elle ne se trouve que sur quelques pages Web : en l’occurrence une liste des gares de frêt en France. A notre connaissance, seules deux pages répondent parfaitement à la question : un set de données présent sur data.gouv.fr et une carte en ligne établie par un internaute à partir de ce set de données.
Nous avons donc entré la requête suivante dans les 5 moteurs : liste gares frêt france
ogle, ces deux résultats apparaissent en premier mais comme nous avons déjà réalisé cette requête dans le cadre d’autres articles pour Bases et Netsources, il n’est pas improbable que Google ait personnalisé notre liste de résultats par rapport à notre historique de recherche.
- Sur Bing, l’un des résultats est en 3e position, le second en 26e position et donc il n’est plus visible sur la première page de résultats
- Sur DuckDuckGo, les deux résultats sont à la même place que sur Bing
- Sur Qwant, l’une des pages est en 11e position et l’autre n’apparaît pas
- Enfin, Yandex ne propose que des résultats complètement hors-sujet.
Sur notre exemple, Google est le plus pertinent suivi de près par Bing et DuckDuckGo.
Alternatives à Google : est-ce vraiment utile ?
Au vu des différents tests et du peu de recoupement entre Google et ses concurrents, la réponse est sans hésitation OUI.
Quand on cherche une information ou un chiffre précis, il n’est évidemment pas nécessaire d’utiliser plusieurs moteurs une fois la réponse trouvée sur des sources fiables.
En revanche pour des questions plus conceptuelles ou des questions qui nécessitent d’agréger de multiples informations ou d’avoir une vue d’ensemble, cela peut avoir un réel intérêt pour explorer les résultats qui n’apparaissent pas dans les premières pages de résultats.
Nos tests ont montré qu’il y avait de nombreuses similitudes entre les résultats de Bing, Qwant et DuckDuckGo. Nous préconisons l’utilisation d’un seul de ces moteurs, en l’occurence Bing (avec une préférence pour celui-ci) ou DuckDuckGo qui proposent tous deux des fonctionnalités de recherche plus poussées que Qwant.
Yandex est extrêmement mauvais pour toute requête en français et est donc à bannir dans ce contexte. En revanche, pour des requêtes en anglais, il se différencie de ses concurrents et peut permettre d’identifier des informations non disponibles ailleurs, sans parler des recherches en russe, pour lesquelles on ne pourra s’en passer.