Nous avons testé Yep.com, un nouveau moteur de recherche à l’index maison

Clément Morin
Bases no
405
publié en
2022.08
1513
Acheter ce no
Tags
évaluation outils | recherche Web | outils de recherche
Nous avons testé Yep.com, un nouveau moteur de recherche à ... Image 1

Les origines

L’entreprise spécialisée dans le SEO Ahrefs, basée à Singapour, mais fondée par l’Ukrainien Dmytro Gerasymenko, vient de dévoiler son propre moteur de recherche, Yep.com, qui se veut un émule du moteur Brave et ambitionne de prendre quelque part de marché au mastodonte Google et, dans une moindre mesure, à Bing.

À la différence des moteurs tels qu’Ecosia et DuckDuckGo, Yep.com dit utiliser pour son moteur un index développé en interne, à l’instar de Brave Search (voir notre article « Brave Search, You et Presearch : les nouveaux moteurs passés au crible », BASES n° 397 de novembre 2021), et non sur des API dérivant ou s’appuyant sur les index de Google et Bing.

L’index s’appuie donc pour l’instant sur AhrefsBot, un crawler « fait maison » pour indexer le Web, au rythme de 8 milliards de pages web toutes les 24 heures, selon la société.

La prochaine étape prévue sera de créer un YepBot indépendant des algorithmes d’Ahrefs.


Lire aussi :

Brave Search, You et Presearch : les nouveaux moteurs passés au crible

Le site Abondance indique que l’index « est mis à jour toutes les 15 à 30 minutes » et que « la société ajoute 30 millions de pages web et en supprime 20 millions » par jour, sans que l’on connaisse les critères de sélection (liens morts, pages trop anciennes et non actualisées, etc.).

L’aspect visuel : simplicité et ergonomie

« Yep » est le mot anglais pour « yes » dans un contexte familier. L’interface est particulièrement épurée et aisée à comprendre et utiliser (cf. Figure 1. Interface d’accueil de Yep et Figure 2. page des résultats de Yep.com)

Figure 1. Interface d’accueil de Yep

Figure 2. Page des résultats de Yep.com

Rien de renversant dans sa présentation, ce qui est aussi bien, afin de ne pas déstabiliser l’utilisateur, très (trop ?) habitué à la présentation Google/Bing.

Ce qui va nous intéresser, c’est son positionnement, le business model que le moteur indique mettre en place et la place de ce moteur dans la boîte à outils du veilleur.

Son business model et positionnement

Dans un contexte de concurrence particulièrement inégale, où Google prend en charge plus de 91 % des requêtes mondiales et Bing, second moteur le plus utilisé, environ 3 % - Statcounter, on voit difficilement comment un nouveau moteur de recherche, un de plus parmi tant d’autres apparus récemment, peut attirer suffisamment d’utilisateurs, même occasionnels, pour générer des revenus.

L’investissement de départ atteindrait 60 millions de dollars en juin 2022, au moment du lancement de la version bêta du moteur. Ces sommes proviennent des ressources propres d’Ahrefs, sans investissements extérieurs, afin d’être complètement maître du rythme de développement du moteur.

Une fois la version bêta achevée, le moteur annonce vouloir reverser 90 % des revenus issus de la publicité sur le moteur aux « content creators », c’est-à-dire les éditeurs de sites web et créateurs de contenus web.

La logique est la suivante : actuellement Wikipédia est le cinquième site le plus consulté au monde et Google attire plus de 90 % des requêtes mondiales. On peut donc légitimement penser que la majorité des utilisateurs qui consultent les articles sur Wikipédia le font en passant par Google. Or, les revenus de publicités générés par ce trafic reviennent intégralement à Google, et pas un centime issu de ces revenus-là (à notre connaissance) n’est reversé à Wikipédia, quand bien même il participe à l’attractivité du moteur de recherche. Google fait tout de même l’effort de donner des sommes importantes à Wikipédia et ses structures associées, ainsi en 2019 le don de 3,1 milliards de dollars à WikiMedia.

On pourrait étendre ce raisonnement aux médias, régulièrement opposés à Google sur des questions de droits d'auteur.

L’idée est donc d’attirer financièrement les « créateurs de contenus » que l’on souhaite pertinents, pour générer du trafic qui lui-même motive les annonceurs et ainsi augmenter les revenus des deux parties.

À ce stade Yep indique travailler pour l’instant à améliorer son indexation sur les pôles browser, images et News avant d’introduire de la publicité.

Le désormais habituel argument du respect de la vie privée

Cette répartition 90/10 des revenus de la publicité n’est pas le seul argument avancé dans le discours du nouveau moteur. Sans surprise, Yep insiste sur le respect de la vie privée des utilisateurs en assurant ne pas effectuer de traçage personnel des recherches.

Dans ce cas, comment améliorer l’algorithme de recherche et comparer la pertinence des réponses pour assurer un meilleur service aux utilisateurs ?

  • La nuance se trouve dans le mot de « personnel ». Les recherches sont bien enregistrées, et l’IP de l’utilisateur est bien identifiée pour orienter les résultats selon la localisation et la langue, mais Yep assure ne pas stocker les informations personnelles associées à cette adresse IP ni développer de profil ou d’historique de recherches pour un même utilisateur.
  • Selon Yep, les cookies sont « désactivés par défaut ». Ils ne deviennent actifs que lorsque l’utilisateur effectue des changements dans les paramètres.

Vous pouvez lire leur discours en détail sur https://yep.com/privacy.

  • L’ambition détaillée est de « motiver des individus de tous horizons à partager leurs connaissances uniques et de promouvoir un contenu de grande qualité pour remplir chaque page de résultats ».

Cette déclaration est associée à la revendication, appuyée par deux fois, de l’affichage « sans biais/impartial » des résultats (« unbiaised »). Est-ce à dire que les « créateurs de contenus » générant un important trafic ne seront pas favorisés dans l’indexation de Yep ? Rappelons que sa société mère, Ahrefs, est spécialisée dans le SEO. Nous vous laissons encore une fois faire le tri entre ce qui est annoncé et ce que l’on peut lire entre les lignes.

L’intérêt de Yep pour le professionnel de l’information : nous avons testé

Pour notre test, nous comparons Yep avec Google et Bing. Nous avons essayé différentes requêtes pour mettre à l’épreuve la pertinence des résultats sur chaque moteur.

1ère requête : Bases Netsources

Les trois moteurs identifient correctement le lien vers le site web de BASES et NETSOURCES.

Étonnamment, sur Yep, les résultats de bas de page n’ont rien à voir avec notre société éditrice Bases Publications ou avec le site lui-même https://bases-netsources.com, il y a simplement le terme « Bases » dans le corps du texte, parfois déformé ou intégré dans un autre mot clé, comme dans « Databases » en anglais.
Encore plus surprenant, les résultats après le « Show More » de bas de page sont plus pertinents que les quatre précédents. Ce « Show More » remplace l’organisation par page de résultats sur Google et Bing, et affiche les résultats à la suite les uns des autres, ce qui est pratique pour lancer un ctrl+F.

De manière amusante, et suite à une faute de frappe de notre part, nous avons remarqué qu’avec « NETSOURCE » sans s, Yep est incapable d’identifier notre site web, alors que Google et Bing supposent qu’il y a une erreur dans la graphie et continuent de proposer notre site web.

Dans le détail, Yep affiche les résultats comprenant « Netsource » dans le titre de la page ou dans l’URL et parfois « bases » dans le corps du texte. Plus rarement, vers la fin de page de résultats, seul « Netsource » se trouve en corps du texte. Effectue-t-il une pondération des termes selon leur placement dans la requête ?
Pour cette requête fautive, nous avons mesuré un temps de réponse de cinq secondes pour Yep. Il est donc possible qu’il ait identifié quelque chose d’anormal, notamment en comparant avec nos requêtes précédentes, mais qu’il ne fût pas capable de réagir en conséquence.

À noter :

  • Comme tous les moteurs, Yep n’est pas sensible à la casse, ce qui signifie qu’il importe peu si les lettres sont en majuscules ou en minuscule.
  • Le temps de réponse moyen tourne autour d’une à deux secondes, avec un maximum observé de six secondes. En comparaison de la quasi-instantanéité de Google Chrome et Bing, cela nous paraît très long.
  • Il n’y a pas d’options ni de filtres de recherche, ce qui est gênant.

Enfin, de manière assez transparente, Yep propose de lancer la même requête sur d’autres moteurs de recherche (cf. Figure 3. Proposition de duplication de la requête sur d’autres moteurs de recherche) Est-ce un aveu de faiblesse ?

Nous choisissons d’y voir de l’honnêteté vis-à-vis de l’utilisateur et considérer qu’il s’agit de la reconnaissance - temporaire - de la perfectibilité de leur moteur et index.

Figure 3. Proposition de duplication de la requête sur d’autres moteurs de recherche


2nd requête : le mot « veille »

Notre second test portait sur le simple mot « veille ». Ici, les résultats sont singulièrement différents.

Là où Google et Bing nous proposent des définitions de l’état de veille et un encart pour la veille stratégique sur Google et de veille professionnelle sur Bing, Yep affiche comme premier résultat… un éditeur de plateforme de veille. Cela peut-ils s'expliquer par la multiplication du terme "veille" dans les contenus du site web de la plateforme. Etrangement, un test ultérieur a vu Yep s'aligner sur les résultats attendus de Google et Bing, c'est-à-dire des résultats issus de Wikipédia et de sites généralistes.

Le plus intéressant est que basculer sur l’onglet News dans Yep redirige exclusivement vers des articles traitant de la veille (juridique, concurrentielle, etc.), alors que Google et Bing listent tous les articles (le plus souvent de presse) contenant le mot « veille », et de rares déclinaisons (veillé), dans le titre. 
Yep suggère d’éventuelles corrections orthographiques pour les requêtes, notamment… « zelle », qui signifie « cellule » en allemand. Pour une interface exclusivement en anglais, il y a de quoi être surpris.


3ème requête : TikTok Bases Netsources

Par cette recherche, nous avons voulu voir si Yep était capable d’aller chercher un article spécifique paru dans nos colonnes concernant la veille sur ce réseau social (« Comment surveiller TikTok : un réseau social atypique pour le veilleur », NETSOURCES n° 157 d’avril-mai 2022).

Google et Bing identifient le bon article et Bing propose même la lecture du paragraphe d’introduction sans avoir à cliquer sur le lien (ce qui nous plaît moyennement par ailleurs). Ici, Yep se trouve incapable de nous proposer l’article, mais contourne partiellement le problème en redirigeant vers le site Bases-Netsources, afin, sans doute, de nous permettre de lancer une recherche dans le moteur interne.


4ème requête : What are the latest innovations in information retrieval ?

Enfin, nous avons voulu voir si Yep maîtrisait la recherche en langage naturel en entrant une question en anglais : What are the latest innovations in information retrieval ?

Et là où Google et Bing comprennent bien notre question et proposent, au moins sur la première page, des résultats pertinents, Yep ne propose que des résultats complètement hors sujet.
Yep ne comprend donc rien au langage naturel et il est impératif de l’interroger de manière basique avec un ou deux mots-clés d’autant qu’il n’est pas non plus un spécialiste de la recherche booléenne.


Les opérateurs de commande

Si les opérateurs habituels site:, inurl: ou filetype: n’ont plus de secret pour vous, quid de leur efficacité dans Yep.com ? Ici, nous utilisons la requête « Zeiss sustainability report + opérateur » afin de parvenir à identifier le dernier rapport de développement durable 2020-2021 des activités du groupe technologique allemand Zeiss.

L’opérateur filetype: semble ne pas du tout fonctionner sur Yep, mais site: paraît être pris en charge.

Étonnamment, les opérateurs inurl: et allinurl: semblaient fonctionner durant les quelques premiers essais de recherche, puis ont été soudain traités comme des termes de recherche en propre, et Yep cessait d’afficher le moindre résultat. Pour sa défense, Bing est tout autant incapable de nous proposer des résultats pertinents avec la requête « Zeiss inurl:corporate ».

Les opérateurs before: et after: ne sont pas respectés. L’opérateur allintext: semble partiellement traité par Yep, de même que allintitle:.

Les guillemets pour l’expression exacte ne semblent pas être pris en compte. Seul le premier résultat comprend bien l’expression exacte, les autres renvoient simplement vers diverses pages des sites officiels de Zeiss (selon le secteur d’activité).

Le signe - n’est pas respecté et le terme que l’on veut exclure est même traité comme prioritaire, car il apparaît dans les titres des résultats proposés. Passé le premier résultat, les termes « Zeiss » et « sustainability » sont complètement ignorés par le moteur.

Il semble in fine que les opérateurs ci-dessus soient d’abord des opérateurs Google, avant de s’être diffusés sur d’autres moteurs de recherche, mais ils n’ont pas été retranscrits sur Yep.com.

L’avenir du moteur Yep.com : beaucoup d’interrogations

À ce stade, on peut se poser la question suivante : le moteur pourra-t-il con­server son positionnement et discours de protection de la vie privée lorsque les annonceurs commenceront à faire de la publicité sur le moteur ?

En effet, comment convaincre des publicitaires qui d’une part veulent cibler pour obtenir le meilleur rendement par euro dépensé, et d’autre part les consommateurs à qui l’on a affirmé que leur profil n’est pas enregistré et vendu à des tiers ?

Le moteur de recherche est bien sûr encore en construction, nous l’avons vu lors de nos requêtes, et nous lui faisons grâce de ses défauts à ce stade. Si ceux-ci sont corrigés, il se peut que le moteur devienne intéressant pour s’extraire de la domination Google et identifier des sites et contenus moins mis en avant espoir que l’on nourrit souvent lorsque l’on utilise un autre moteur que Google.

À ce stade, la seule valeur ajoutée de Yep pour le veilleur est son index maison qui pourrait permettre de faire émerger des résultats ou sites différents de ceux proposés par Google, Bing et les autres. Mais l’outil manque cruellement de fonctionnalités de recherche pour permettre de réaliser des recherches de qualité.
À suivre de loin pour l’instant..