Nous avons testé Latlas.pro, un nouveau moteur de recherche thématique personnalisable

Carole Tisserand-Barthole
Bases no
402
publié en
2022.04
1781
Acheter ce no
Tags
outils de recherche
Nous avons testé Latlas.pro, un nouveau moteur de recherche ... Image 1

Dans le contexte actuel, les professionnels de l’information se retrouvent de plus en plus confrontés au besoin de se créer leurs propres outils de recherche thématiques pour ne pouvoir rechercher que sur un corpus restreint de sources qualifiées.

Cela s’explique tout d’abord parce que les moteurs de recherche ne font émerger qu’une sélection de sources par rapport à une question donnée et pas nécessairement les plus qualifiées. Et plus les années passent, plus le nombre de résultats affichés par les moteurs diminue, rendant encore plus difficile la découverte et la visualisation issues de sites peu optimisés pour le référencement.

D’autre part, les outils de recherche professionnels (bases de données, agrégateurs de presse, plateformes de veille), malgré leur très grande valeur, n’ont pas non plus des corpus de sources exhaustifs et n’intègrent pas toutes les sources dont le veilleur peut avoir besoin.

Et c’est sans compter sur le fait qu’on ne peut pas rechercher de la même manière sur tous les types de sources. On ne pourra pas utiliser la même requête pour interroger des sites très spécialisés et des sources beaucoup plus généralistes comme la presse nationale ou les réseaux sociaux : le niveau de ciblage tout comme le champ lexical à employer seront tout simplement différents.

Dans ce contexte, il n’y a pas d’autre choix, en complément des moteurs et outils professionnels, que de réaliser un sourcing précis avec les sources pertinentes en lien avec le secteur ou la thématique qui nous intéresse pour ensuite créer un outil de recherche qui permettra de se focaliser exclusivement sur ces sources qualifiées.

Malheureusement, les solutions perme­ttant de créer ses propres outils de recherche thématiques sont rares, la plus connue étant Google CSE, le service de moteur personnalisable de Google.

Un nouvel acteur vient d’arriver sur ce marché. Il s’agit de Latlas.pro, un acteur français qui propose des moteurs personnalisables privés ou publics. Nous l’avons testé et avons évalué son utilité pour le veilleur et le professionnel de l’information.

Nous avons testé Latlas.pro, un nouveau venu sur le marché des moteurs personnalisables

Même s’il y a déjà quelques acteurs sur le créneau des moteurs personnalisables, il y a suffisamment de place et il y a même un réel besoin pour de nouveaux venus . Et Latlas.pro arrive à point nommé.

Latlas.pro a été développé par Frédéric Plisson qui n’est pas novice dans le monde des moteurs de recherche et du SEO. Il a notamment été à l’origine de l’annuaire généraliste La Boussole, qui existe depuis 20 ans et existe d’ailleurs toujours aujourd’hui. Le projet a été lancé en 2020.

L’analyse de Frédéric Plisson sur le marché des moteurs aujourd’hui est indéniablement pertinente : il pointe la difficulté pour de nombreux sites spécialisés et thématiques à apparaître sur des moteurs comme Google et le besoin d’outils de recherche thématiques avec des sources thématiques et très spécialisées. De ce point de vue-là, il a très bien analysé les besoins et l’outil qu’il propose et continue de développer est, sur le papier, très prometteur pour le professionnel de l’information.

Latlas.pro se positionne aussi en opposition avec Google sur la question de la vie privée et de l’éthique avec des crawls éthiques (c’est-à-dire qu’il ne crawle que des pages que les éditeurs de sites ont autorisées à crawler), pas de traçage des internautes et des données hébergées en Europe.

Latlas.pro permet donc aux internautes de créer des moteurs personnalisables privés et publics.

  1. D’un côté, ce qui est appelé moteur de veille et qui est un moteur personnalisable privé et donc non accessible pour tous les internautes sur le Web
  2. De l’autre, ce qui est appelé moteur de recherche et qui ressemble à un moteur classique si ce n’est qu’il est personnalisé.

Les moteurs publics sont proposés pour 75 euros HT par mois (ou 670 euros HT à l’année) et les moteurs privés à 60 euros HT par mois ou 390 euros HT par an.

Le moteur privé est limité à 20 domaines si on choisit l’abonnement mensuel ou 45 si on choisit la facturation à l’année et le moteur public à 750 domaines si on choisit l’abonnement mensuel ou 1000 avec l’abonnement annuel.

Nous avons pu tester le moteur privé (avec une limite de 10 sites) et nous avons également regardé un des moteurs publics proposés par Latlas.pro sur la thématique du SEO.

Tout d’abord, le fonctionnement est très simple :

  • - On entre l’URL, la locale (c’est-à-dire la langue associé à un pays - Français de Belgique par exemple) et on peut y associer une catégorie. Le site est ensuite automatiquement intégré à son moteur.
  • - A ce stade, il n’est pas possible d’intégrer seulement une partie de site comme c’est le cas sur Google CSE, mais cette fonctionnalité devrait en principe voir le jour prochainement. D’autre part, il n’est pas encore possible d’intégrer les réseaux sociaux. Mais là encore, c’est une fonctionnalité qui devrait apparaître.
  • - Le moteur se met ensuite au travail et commencer à crawler les pages des sites Web que l’on a intégrés. Le moteur n’est donc pas immédiatement complètement opérationnel. Au bout de quelques jours, on commence à avoir une certaine couverture de chaque site ajouté dans le moteur.
  • - La recherche sur le moteur peut ensuite porter sur le titre des pages indexées, les descriptifs, certains sites précis, des termes apparaissant dans l’URL, les sites dans une certaine langue ou appartenant à une certaine catégorie.

Nous avons également créé un moteur avec Google CSE avec exactement les mêmes sources pour pouvoir comparer.

Et à ce stade de développement, force est de constater que Google CSE est plus efficace que Latlas.pro. Le nombre de pages indexées pour chaque site semble plus important que pour Latlas.pro, ce qui se traduit également par plus de résultats du côté de Google.

Même après plusieurs semaines, Latlas.pro n’avait pas encore indexé la grande majorité des pages des dix sites Web que nous avions intégrés (les contenus récents étaient bien présents mais les contenus anciens étaient nettement moins bien représentés) là où Google disposait déjà des pages dans son index depuis longtemps. Frédéric Plisson nous a cependant indiqué que Latlas.pro était en mesure d’indexer la majorité des pages d’un site (à l’exception des pages exclues dans le fichier robot.txt) mais que cela prenait du temps.

Google affiche les dates des pages (même si ce n’est pas toujours exact), mais pas Latlas.pro ; et Google permet également de classer les résultats par pertinence ou date là où il n’y a pas le choix pour Latlas.pro (c’est la petite IA qui détermine les pages les plus pertinentes).

Le fait que Google CSE propose plus de résultats s’explique aussi par le fait que la recherche porte sur le texte intégral des pages et qu’il interprète peu l’intention de recherche de l’utilisateur (contrairement au moteur Web de Google, qui, lui, ne fait que cela). Un terme isolé présent à la fin d’une page Web pourra ainsi être retrouvé via Google CSE ce qui n’est pas toujours le cas sur Latlas.pro car le fonctionnement est différent. Sur Latlas.pro, l’ « indexer » lit le contenu et va créer une matrice avec des vecteurs par rapport au contenu lu. A partir de la recherche que l’on entre, c’est une petite IA qui rentre en jeu afin de déterminer la page la plus pertinente et il est tout à fait possible que le calcul fait par l’IA n’accorde pas d’importance à ce mot clé et ne fasse donc par ressortir les pages citant ce mot-clé.


Fait notable, nous avons pu remarquer que, pour les pages nouvelles et très récentes, Latlas.pro était plus rapide que Google CSE à indexer les pages. Un article publié le jour même de nos tests apparaissait déjà dans Latlas.pro alors qu’il n’y en avait aucune trace dans notre moteur Google CSE.

Visuellement, l’outil est plus réussi que Google CSE et a l’avantage d’être hébergé en Europe, il a une meilleure réactivité dans l’indexation des contenus récents mais il y a encore quelques lacunes en termes de fonctionnalités.

Il ne faut pas oublier que Latlas.pro n’en est qu’à ses débuts. Les ambitions affichées par son créateur sont prometteuses, mais l’outil nécessite encore des améliorations pour apporter une réelle valeur ajoutée au veilleur.


Et parmi ces améliorations qui pourraient lui permettre de concurrencer et se démarquer de Google CSE, on citera :

  • - Des sites dont la majorité des pages sont bien recherchables en texte intégral et qui permettrait de répondre à certains besoins informationnels récurrents des veilleurs tels que (ces sites ont-ils déjà mentionné ce produit, cette marque, cet outil ou ont-il déjà traité de cette thématique ?)
  • - La possibilité d’entrer de véritables requêtes booléennes, ce que Google et autres moteurs ne permettent pas, mais que les outils professionnels proposent toujours ;
  • - La possibilité de filtrer les résultats par date de publication (moins d’un an, période personnalisée) ;
  • - La possibilité de classer les résultats par ordre antéchronologique ;
  • - La possibilité d’avoir accès à plus de 100  par requête résultats (ce qui est la limite proposée par Google CSE) si la requête génère un important volume de résultats.

On suivra donc ses prochaines évolutions avec attention, car c’est un outil qui peut avoir du potentiel. En espérant qu’il sera rapidement capable de surpasser des outils comme Google CSE, ce qui serait très précieux pour les professionnels de l’information.

Quelles autres solutions pour créer ses propres outils de recherche thématiques aujourd’hui ?

Latlas.pro n’est pas le seul acteur sur le marché des moteurs personnalisables mais les concurrents ne se bousculent pas et c’est bien dommage. Voici un tour d’horizon des autres solutions disponibles.

Les moteurs personnalisables proposés par les moteurs de recherche

Google CSE

Le plus connu, c’est bien évidemment le service Google CSE qui existe depuis 2006. Le principe est simple : l’utilisateur intègre des sites ou pages qu’il souhaite intégrer à son moteur. Il peut ensuite rechercher uniquement sur les pages de ces sites indexés par Google.

Les avantages :

C’est très simple d’utilisation, c’est gratuit et il n’y a pas de limitation dans le nombre de sites que l’on peut intégrer. On profite en outre de la force de Google et de ses possibilités de recherche.

Les résultats sont classés par pertinence ou par date de publication, une possibilité très intéressante qu’on ne trouve plus jamais sur les moteurs Web.

D’autres fonctionnalités utiles sont également disponibles :

  • Possibilité de n’intégrer que des pages précises ou des parties de site
  • utilisation des opérateurs avancés de Google (intitle:, filetype:, etc.)
  • intégration d’un moteur d’image dans un onglet spécifique
  • limitation à certaines pages à l’aide d’entités Knowledge Graph,
  • restriction à certaines pages à l’aide de types Schema.org
  • choix des sites qui seront plus mis en avant que d’autres,
  • création de filtres pour que les utilisateurs puissent visualiser les résultats par catégorie
Les inconvénients :
  • L’interface est extrêmement minimaliste et peu agréable. On est limité à 100 résultats maximum.
  • Et comme toujours avec Google, on n’a accès qu’à une sélection de contenus et pas nécessairement l’intégralité des pages qui répondent à notre requête, même si c’est tout de même moins marqué que sur le moteur Web de Google.

Google CSE ne propose que des moteurs publics et donc accessibles pour toute personne qui en connaît l’adresse. Dans les faits, il est quasi-impossible de réussir à repérer un moteur Google CSE sur le Web. Seules les personnes qui connaissent le lien direct vers le moteur pourront réellement s’y rendre.

  • On constate également que Google CSE fait remonter certains anciens résultats qui se mélangent aux récents. C’est beaucoup plus marqué que sur le moteur Web de Google où globalement les dates indiquées par le moteur correspondent aux dates réelles de publication. On sera donc très vigilant.
  • Il y a également des incohérences. Une même requête peut fournir des résultats si on choisit le classement par pertinence, mais aucun résultat si on choisit le classement par date. Certains résultats ne contiennent absolument pas les mots-clés de la requête.
  • Le moteur CSE fonctionne très mal avec les réseaux sociaux comme Twitter, Facebook, etc. Même si on ajoute des comptes précis, il ne fait ressortir que très peu de contenus, car il les indexe peu.

Et on retrouve les problèmes habituels associés à Google : outil qui n’est pas hébergé en Europe, on ne sait pas ce qu’il fait des données collectées, etc.

Bing custom Search

Dans la même veine, Bing avait lancé en 2017 un système de moteurs personnalisables. Pour l’écriture de cet article, nous sommes retourné y jeter un coup d’œil et force est de constater que l’outil ne s’est pas amélioré.

Les inconvénients :
  • On observe qu’il y a peu de résultats par rapport à une requête donnée là où Google en affiche beaucoup plus avec les mêmes sources. Les résultats ne mentionnent pas la date de publication des articles, billets et pages, ce qui est toujours un problème quand on recherche de l’information.
  • Et surtout, c’est un outil qui est avant tout conçu pour être utilisé comme une API (et donc intégré à un site Web, une app, etc.) et pas comme un moteur directement accessible en ligne.
  • L’outil est d’ailleurs payant à partir d’un certain seuil.

Au final, comme d’habitude, malgré ses nombreux défauts, Google est encore une fois « le moins mauvais des deux» pour réussir à se créer un moteur personnalisable. C’est d’ailleurs exactement le même scénario avec le moteur Web de Google et Google Alertes.

Il existe également des solutions détournées pour créer ses propres outils de recherche thématiques à travers d’autres outils comme les lecteurs de flux RSS et les réseaux sociaux.

Tirer parti des lecteurs de flux RSS

On peut aussi se créer ses propres outils de recherche à partir des lecteurs RSS comme Feedly ou Inoreader. L’utilisateur intègre les flux RSS des sources qui l’intéressent puis utilise les moteurs intégrés à ces outils pour rechercher spécifiquement sur ces sources.

Les avantages :

 LLes moteurs de ces outils sont de plus en plus performants et proposent des filtres et des fonctionnalités intéressantes (filtre par date, type de contenus comme des articles, des images ou des vidéos, recherche sur le titre, utilisation des opérateurs booléens, etc.).

Les inconvénients :
  • Les flux RSS des sites ne couvrent pas nécessairement l’intégralité des contenus que l’on peut trouver sur un site. Bien souvent, le flux RSS ne permet que de suivre la rubrique actualités du site et pas le reste. La couverture est donc un peu réductrice. C’est d’ailleurs une des raisons pour lesquelles les lecteurs de flux RSS proposent de plus en plus des outils intégrés permettant de créer des flux sur des pages qui n’en ont pas ou des fonctionnalités de surveillance de pages. C’est le cas d’Inoreader et Feedly.
  • L’antériorité du contenu d’un flux RSS est variable, et dans certains cas on ne peut pas remonter très loin dans le temps. C’est notamment le cas quand on doit créer un flux sur une page qui n’en a pas ou bien mettre en place une surveillance de page. L’antériorité commence alors au moment où on met en place cette surveillance.
  • Dans la même veine, on peut utiliser les plateformes de veille et de social media monitoring comme outils de recherche thématique. Les fonctionnalités de recherche sont généralement avancées, mais il peut y avoir un problème au niveau de l’antériorité qui peut être limitée. À titre d’exemple, le produit Historical Search de Digimind ne permet pas de remonter au-delà de 24 mois et c’est pourtant l’un des outils avec la plus grande antériorité. Sur d’autres outils, les archives ne commencent qu’à partir du moment où l’internaute intègre la source dans l’outil.

Utiliser les réseaux sociaux

Dernière possibilité : identifier des comptes pertinents sur les réseaux sociaux et rechercher spécifiquement sur cette sélection de comptes.

Sur Twitter, cela fonctionne très bien avec la fonctionnalité « liste ». On intègre des comptes pertinents à une liste thématique et on peut ensuite rechercher dessus avec la requête suivante : list:identifiantdelaliste mots-clés. On sélectionne ensuite l’onglet « récents » pour visualiser l’ensemble des contenus répondant à notre requête, classés par ordre antéchronologique.

Sur les autres réseaux sociaux, c’est nettement plus compliqué, car ils ne sont pas conçus pour cela. La seule possibilité consiste à créer des comptes spéciaux et donc fictifs sur chaque thématique qui nous intéressent, s’abonner/suivre/se connecter avec des comptes pertinents en lien avec cette thématique puis lancer des recherches dans le moteur et limiter ses résultats à ses connexions, amis, connaissance ou réseau. Mais cela reste peu adapté et s’avère chronophage.

Les avantages :

 Cela permet de rechercher efficacement sur les réseaux sociaux et notamment sur Twitter qui a une réelle valeur pour le veilleur, quel que soit le sujet traité.

Les inconvénients :

On ne recherche que sur les réseaux sociaux, ce qui exclut toutes les autres sources pertinentes (sites Web, blog, site institutionnel). Et même si de nombreux sites ont des comptes sur les réseaux, on n’y retrouve jamais l’intégralité de ce qu’il y a sur leur site Web.