Utiliser les Goggles existantes : un jeu d’enfant
La solution la plus simple consiste à utiliser les Goggles créés par d’autres utilisateurs ou par Brave.
Il est malheureusement impossible d’avoir une vue d’ensemble des tous les Goggles disponibles. Le seul moyen est d’utiliser le moteur interne et de rechercher pour voir s’il en existe sur les thèmes qui nous intéressent.
On citera quelques Goggles comme :
- 1K short qui retire des résultats les 1000 sites les plus consultés au monde (comme Google, Facebook, YouTube, Amazon, Netflix, etc.). Cela n’est pas sans rappeler le moteur Million short dont c’est précisément le créneau ;
- Tech Blogs pour limiter sa recherche aux principaux blogs spécialisés dans la Tech ;
- Chilean Goggles qui permet de rechercher essentiellement sur des sites chiliens ;
- Science & Medecine qui limite aux sites de recherche et aux publications scientifiques ;
- 1990 blog Goggles qui fait ressortir des résultats de blogs des années 90, etc.
Comment créer son propre moteur personnalisé ?
C’est là que tout se complique et qu’il faut rester bien concentré.
Étape 1 : créer un compte Github
La première étape, c’est qu’il faut se créer un compte Github pour aller héberger ses « Goggles ».
On a ensuite 2 possibilités pour héberger son Goggle :
I. Dans l’interface Github classique
- Une fois le compte créé, on cliquera sur le + en haut à droite et on choisira « New repository », que l’on pourra par exemple appeler « mes Goggles ».
- Une fois créé, on viendra ajouter un nouveau fichier en choisissant « add file » où l’on viendra ajouter les sources et paramètres de ses Goggles (voir figure 1. Créer ses Goggles dans Github)
Attention, pour pouvoir ensuite ajouter ses Goggles au moteur Brave, il faut absolument que le repository créé soit en mode public, ce qui peut poser quelques problèmes de confidentialité si on ne souhaite pas dévoiler ses sources.
Figure 1. Créer ses Goggles dans Github
II. Dans l’interface Gist Github
On entrera ses instructions puis on cliquera sur « create a secret gist » (Cf. figure 2. Créer un Goggle sur GithubGist).
Dans ce cas, Brave est capable de récupérer le Goggles, mais le fichier ne sera pas détectable sur Github par les autres internautes.
Figure 2. Créer un Goggles sur GithubGist
Étape 2 : Intégrer les métadonnées de son Goggles dans le fichier
Dans le corps du fichier, il faut d’abord ajouter les différentes métadonnées avant de mettre les sources et les instructions.
! name:
Nom du Goggles comme par exemple"moteur de la veille"
! description:
Description de l’utilité comme par exemplemoteur thématique qui permet de rechercher sur des sources spécialisées sur la veille et la recherche d’information
! public:
on peut entrer ici false ou true - False permettra de conserver le Goggles en privé sur Brave. Il ne sera pas détectable dans la rubrique Goggles de Brave. Seules les personnes qui disposent de l’URL pourront l’utiliser. True au contraire le rendra « recherchable » par tous les utilisateurs de Brave! author:
nom d’auteur (réel ou pseudo)
Étape 3 : intégrer les sources et paramètres de son Goggles
On ajoute ensuite sur les lignes suivantes les différentes instructions et les sources que l’on souhaite intégrer ou exclure.
Par défaut, le Goggles ne permet pas de limiter sa recherche à une sélection de sources, mais au contraire donne plus d’importance à certains sites que d’autres.
$boost, site=nomdedomaine
va permettre de prioriser ce site dans les résultats du moteur$downrank, site=comdedomaine
va au contraire pénaliser ce site dans les résultats.
On peut ensuite donner une puissance de priorisation ou de pénalisation selon les sites.
On pourra écrire par exemple :
$boost=2, site=nomdedomaine1
$boost=4, site=nomdedomaine2
Le moteur privilégiera donc plus le site 2 que le site 1. Dans les exemples que nous avons pu consulter boost=4
semble être le maximum, mais rien n’indique qu’on ne puisse pas mettre de chiffre plus élevé.
On peut également demander à retirer complètement certains sites avec la commande suivante :
$discard, site=nomdedomaine
Si l’on souhaite absolument que son Goggles ne recherche que sur une liste précise de sources et exclue toutes les autres sources,
- c’est possible en ajoutant
$discard
après les métadonnées et juste avant ses instructions.
Tout ce qui ne répondra pas à ces critères sera automatiquement exclu.
Nous avons par exemple créé un moteur avec des sources liées à la veille et la recherche d’information et notre fichier « Goggles » prend ainsi la forme suivante (Cf. Figure 3. Contenu de notre Goggles sur le thème de la veille et la recherche d’information) :
Figure 3. Contenu de notre Goggles sur le thème de la veille et la recherche d’information
On peut même en principe aller encore plus loin en n’intégrant que des parties de sites et en mettant des instructions sur les éléments de l’URL à intégrer.
Les commandes sont alors les suivantes
/debat-sur-les-retraites/$boost,site=lemonde.fr
pour surveiller la rubrique réforme des retraites uniquement du site du Monde par exemple ;/blog/category/engineering^$boost,site=elastic.co
pour surveiller la rubrique engineering du blog du site elastic.co- Ou encore
/blog/$boost=,site=brave.com
pour surveiller le blog du site de Brave
Dans les patterns de l’URL, l’utilisateur peut utiliser la troncature *
qui remplacera n’importe quel caractère ou le ^
qui remplacera un séparateur comme un /, un =, etc. dans une URL.
Brave indique qu’à l’avenir il devrait être possible de mettre des instructions pour limiter la recherche à des URLs mais aussi à des paramètres ou mots-clés dans le titre de la page, dans sa description et même dans son contenu.
À ce stade, nous déconseillerons l’intégration d’URLs trop précises. Les tests que nous avons faits n’ont jamais ramené le moindre résultat.
Attention, il faut également retenir qu’il y a quelques limitations dans la création de Goggles :
- La taille du fichier d’instruction ne doit pas excéder 2 Mb ;
- Le nombre d’instructions ne doit pas dépasser 100 000 ;
- La longueur d’une seule instruction ne doit pas dépasser 500 caractères ;
- Le nombre de troncatures * et ^ ne doit pas excéder 2 par instruction ;
Étape 4 : intégrer le Goggles dans Brave
On copie ensuite l’URL de la page Github où l’on a créé ses instructions :
Dans notre cas, l’URL prenait la forme suivante :
- https://gist.github.com/Basesnet/fbaf9b05a17f118373ca24cc0db56884
- Puis on se rend sur Brave à l’adresse suivante https://search.brave.com/goggles/create et on soumet l’URL.
Si on a correctement réalisé les étapes précédentes, Brave détecte votre Goggles et vous propose de l’ajouter.
Brave semble les garder en mémoire et on pourra les retrouver et réutiliser facilement en se rendant à l’adresse suivante : https://search.brave.com/goggles/discover
Une comparaison avec Google CSE
Figure 4. Recherche sur notre moteur personnalisé Veille sur Brave
Figure 5. Recherche sur notre moteur personnalisé Veille sur Google CSE
Pour évaluer la qualité des résultats, nous avons fait un test en créant un Goggles sur Brave regroupant dix sites incontournables sur la veille et la recherche d’information (Cf. Figure 4. Recherche sur notre moteur personnalisé Veille sur Brave) et un moteur Google CSE avec exactement les mêmes sources (Cf. Figure 5. Recherche sur notre moteur personnalisé Veille sur Google CSE).
Nous avons ensuite mené différentes recherches pour comparer les résultats.
Et on peut dire que Brave n’a pas à rougir même si Google CSE reste encore un peu au dessus.
Sur les recherches que nous avons lancées, Google CSE comme Brave nous proposent des liens pertinents en lien avec notre requête. Google a cependant tendance à faire ressortir des résultats plus récents que Brave.
On constate que Google nous propose généralement plus de résultats que Brave.
Dans le cas de nos sites dédiés à la veille, certains étaient particulièrement mal indexés dans Brave et ne faisaient donc ressortir que très peu de résultats. Il est évident que l’index de Brave ne peut être aussi fourni que celui de Google, mais ce n’est peut-être pas uniquement de son fait. A ce sujet, voir notre article sur Neeva dans ce même numéro où l’un des fondateurs explique que créer un nouvel index est aujourd’hui très compliqué, car de nombreux sites leur refusent l’accès.
Dans certains cas cependant, Brave a été capable de nous ramener plus de 100 résultats là où Google CSE ne peut faire mieux, car là est sa limite. De plus, Brave a été capable de nous présenter des résultats que nous n’avions pas trouvés via Google CSE.
Petit désavantage pour Brave : Google CSE offre une option intéressante en permettant de classer les résultats par ordre antéchronologique là où Brave se limite au classique classement par pertinence. Google CSE comme les Goggles de Brave permettent en principe d’indiquer avec précision ce que l’on intègre dans son corpus. Malheureusement, cela ne semble pas fonctionner correctement sur Brave pour le moment.
Créer un Goggles est au final plus complexe que de créer un moteur CSE.
En revanche, on appréciera que cela soit dans la même interface que le moteur Web et s’il développe la capacité de donner des instructions sur les titres, description et contenus des pages, ce serait un plus par rapport à Google qui ne le propose pas.
On conclura que la fonctionnalité de Brave n’a pas encore vocation à remplacer complètement un moteur Google CSE mais cela peut clairement être un complément. En ayant les deux, on peut obtenir une vision plus complète d’un sujet.