S’inspirer d’autres méthodes d’investigation pour explorer les réservoirs d’informations stratégiques du Web
Faut-il pour autant laisser de côté les opérateurs de Google et de Bing et en rester à une approche superficielle et aléatoire du Web ?
Notre réponse est clairement non :
Le Web constitue un puits sans fond, et certaines recherches ou investigations que les professionnels sont amenés à faire demandent une utilisation immodérée de tous les «moyens d’attaque».
Alors comment chercher de la façon la plus performante possible dans ces immenses réservoirs de données malgré l’opacité croissante des fonctionnalités de requêtage des moteurs ?
Nous recommandons ici une double stratégie :
- Multiplier les requêtes à base d’opérateurs en innovant dans leurs combinaisons, en étant très attentif à l’impact de celles-ci sur la qualité et le nombre des résultats obtenus au fil des combinaisons ;
- Suivre en permanence les tests et analyses des spécialistes de Google et Bing. Ici, trois types d’experts, auxquels l’on ne pense pas naturellement, nous paraissent être des sources d’information de premier plan, car particulièrement «bien placés» pour utiliser au mieux ces moteurs : les experts du référencement, les adeptes de l’OSINT et ceux du dorking, autrement dit du hacking.
Pourquoi des professions en apparence éloignées peuvent-elles inspirer les professionnels de la recherche d’information ?
En fait, ces professions nous semblent beaucoup plus proches que l’on ne le croirait au premier abord, même si le champ d’application de leurs pratiques d’investigation du Web diffère de celles des professionnels de l’information. Elles ont toutes en commun de tester inlassablement le Web et d’apporter des pratiques très variées et riches, de plus accessibles assez facilement sur le Web et à ce titre peuvent nous apporter beaucoup en performance de recherche :
- Les experts du référencement (ou Search Engine Optimization, SEO), qui testent en continu les sites web, partagent souvent leur évaluation des opérateurs de Google (en particulier, mais seulement) dans le cadre de la promotion de leur activité ;
- Les adeptes de l’OSINT explorent sans aucune limite toutes les dimensions du Web : web ouvert, dark web, à l’exclusion du web payant et publient sur leurs réseaux, à côté de multiples répertoires de sources d’information, les «requêtes qui marchent» sur Google (Voir «L’OSINT : illusion marketing ou nouveau champ d’investigation pour les professionnels de l’info ?», Bases N°378, Février 2020.)D’ailleurs, dans ce registre de l’investigation, nous conseillons de s’inspirer également des techniques avancées des journalistes d’investigation tels que le GIJN qui donne force cas et exemples : https://gijn.org/2015/05/05/online-research-tools-and-investigation-techniques/ ;
- Et enfin, les adeptes du «Google Dorking» ou hacking, qui s’engouffrent dans toutes les brèches des sites Web au moyen de «Google dorks» qui ne sont rien d’autre que des requêtes très élaborées, créées à partir d’opérateurs avancés de Google, et qui vont être lancées avec force et généralement malveillance contre un site web, mais aussi parfois avec le but professionnel de détecter si des fuites d’information concernant une entreprise sont visibles sur les moteurs de recherche et notamment Google. Une requête Google Dork utilise en fait les opérateurs de recherche de Google, combinés avec des paramètres ciblés pour trouver des informations spécifiques et se distingue des recherches dites «classiques», moins complexes de façon générale, des professionnels de l’information. La grande différence est bien sûr l’intention qui anime les uns et les autres.
Nos recommandations et sélections d’opérateurs pour la recherche sur Google
Nous avons donc, à la fois au terme de notre exploration des sites les plus en vue - et les plus à jour - de ces différents types d’experts, et également en faisant les tests nous-mêmes, dressé ci-dessous trois listes :
- Sélection des opérateurs qui sont à l’heure actuelle encore performants chez Google et Bing, en spécifiant la caractérisation de leur niveau de performance ;
- L’apport du dorking et des exemples et requêtes originales ;
- Les sites à mettre sous surveillance pour se former en continu.
Nous nous sommes concentrés sur Google, bien sûr en raison de sa part de marché considérable, mais aussi car la prise en compte des autres moteurs aurait été trop complexe à intégrer. Cela dit, nombre de ces commandes semblent marcher sur Bing et Yahoo tout au moins, avec un niveau de performance cependant non déterminé (et sur lequel peu de spécialistes publient).
Il faut garder en tête que Google modifie en permanence ses algorithmes et son interprétation des requêtes. Aucun opérateur n’est stable et la performance des opérateurs et des requêtes construites avec ces opérateurs doit toujours être réévaluée, d’une part en testant à chaque fois plusieurs combinaisons et d’autre part en surveillant les sources spécialisées (en particulier dont nous donnons la liste).
Les exemples utilisés pour illustrer sont empruntés aux différents sites consultés, et dont toutes les sources sont citées au chapitre Références. La plupart de ces sites étant en anglais, un grand nombre de nos exemples le sont également.
Tout d’abord quelques conseils d’écriture des requêtes :
Ordre des mots |
Il est véritablement important : un exemple intéressant est la comparaison entre les deux expressions anglaises:
et
qui donnent le même nombre de résultats mais pas du tout les mêmes résultats… |
Accents | Influencent le nombre de résultats ; nous conseillons d’inclure les mots sous leur forme accentuée et non accentuée |
Casse Majuscules minuscules | Pas d’incidence sur les résultats |
Dans la plupart des cas, les signes de ponctuation (notamment les caractères @#$%^&*()=+[]\ et les autres caractères spéciaux) sont ignorés. |
En revanche, les signes associés à des termes populaires ayant une signification particulière, tels que les langages de programmation [C++] ou [C#] sont recherchables. |
Nous avons exclu les commandes suivantes qui semblent faire consensus sur leur désuétude ou résultats aléatoires :
~ |
recherche synonymes (les synonymes sont inclus désormais par défaut) |
Signe + |
force la correspondance exacte sur une seule phrase |
daterange: |
Renvoie les résultats dans la plage spécifiée ; nécessite d’utiliser les dates juliennes (avec un convertisseur !) |
link: |
Trouve des pages qui renvoient au domaine cible |
inanchor: / allinanchor: |
Recherche les pages liées à la phrase ou au texte d’ancrage spécifié |
deux points de suite: [nombre]..[nombre] |
Recherche les résultats contenant des chiffres (dates, prix…) dans une plage donnée. |
define: |
trouve sur le Web la définition d’un mot |
stocks: |
Recherche les informations boursières d’une société |
Les opérateurs basiques de Google (voir aussi les opérateurs avancés en page 10)
Commande | Exemple d’utilisation et utilité pour la recherche |
Utilisation des guillemets
Force l’ordre des mots en recherchant l’expression exacte mise entre guillemets, en respectant l’ordre des mots et les caractères. |
Exemple : Les guillemets ont une vraie incidence sur la recherche : on n’a pas les mêmes comptages avec ou sans guillemets. Le seul risque en adoptant les guillemets est de passer à côté de résultats importants en se privant des suggestions de Google (synonymie, mots intermédiaires tels que dans les noms de personnes : par exemple, la recherche |
Astérisque
Google traite l’étoile comme un caractère de remplacement pour tout terme inconnu et trouve les meilleures correspondances, jusqu’à 5 termes |
affiche des phrases telles que: WordPress developer WordPress Theme Developer WordPress est développé
Cette commande permet une très grande créativité :
|
permet de spécifier le degré de flou de votre recherche. Changer le X en nombre retournera des résultats où les deux mots-clés sont mentionnés dans ce nombre de mots l’un de l’autre. |
ne trouvera que les documents dont les mots «recherche» se trouvent à moins de 3 mots de «moteur» Ceci est particulièrement utile pour rechercher des mots communs qui ne sont pertinents pour votre recherche que lorsqu’ils sont très proches. |
Signe
Placer un signe moins juste avant un mot indique que vous ne voulez pas que les pages qui contiennent ce mot apparaissent dans vos résultats |
Attention, le signe - doit apparaître immédiatement avant le mot et doit être précédé d’un espace. Par exemple, dans la requête logiciel anti-virus, le signe moins est utilisé comme un trait d’union et ne sera pas interprété comme un symbole d’exclusion ; alors que la requête anti-virus -software recherchera les mots «anti-virus» mais exclura les références à des logiciels. Le signe - peut être utilisé pour exclure plus que de simples mots. Il est possible d’exclure des résultats de recherche autant de mots (ou d’expressions, ou de noms de domaines de sites web) que souhaité en utilisant le signe - devant chacun d’eux, par exemple : |
permet de retrouver des résultats qui ont été publiés avant une date donnée.
permet de trouver des résultats qui ont été publiés après une date donnée. |
le format de la date est YYYY-MM-DD. Si vous ne spécifiez que l’année, le premier résultat sera par défaut le premier de l’année. Il peut là aussi être plus facile d’utiliser les options de recherche avancée par date, disponibles dans Google : aller dans l’onglet Outil puis Date et choisir « moins d’1h », « moins de 24h », « moins d’une semaine », « moins d’1 mois », « moins d’un an » ou « période personnalisée ». |
Les opérateurs avancés de Google
Commande | Exemples d’utilisation et utilité pour la recherche |
limite les résultats de la recherche au site ou au domaine spécifié; est utilisé pour chercher à partir d’un site web spécifique (prend en compte le nom de domaine et les sous-domaines)
C’est cette commande qui est au cœur des CSE (Custom Search Engines), qui permettent de pré-paramétrer un moteur de recherche (lire aussi : «Comment construire ses propres outils de recherche d’information thématiques ?» Netsources 144 -Janv/Fév 2020). Mais attention, lors de la conférence Internet Librarian Connect, Mary Ellen Bates indique que rechercher sur un site avec site: et avec un google CSE ne donne pas le même résultat car ce ne sont pas les mêmes technologies derrière. Elle aurait tendance à privilégier des requêtes sur site: dans le moteur Google plutôt que la création d’un CSE. |
recherche toutes les pages qui correspondent à WordPress et hébergement sur le site ThemeIsle.
- très utile lorsque le site ne dispose pas d’une barre de recherche ; et parfois plus performant que le moteur de recherche interne - utile pour connaître le nombre de pages indexées par Google pour un domaine : - montrera le nombre de pages indexées pour la section blog du site par Google et permettra de retrouver et d’évaluer le contenu réel d’un blog (ou de faire remonter des problèmes s’il s’agit de son propre site)
A noter que l’on peut rajouter un préfixe générique pour faire la liste de tous les sous-domaines d’un site particulier, qui peuvent ensuite être recherchés avec la commande site (ne pas oublier d’exclure le site web en question avec la commande -site:)
Par exemple, Dan Russell, le Research scientist de Google, recommande l’utilisation de la commande site: dans le contexte actuel de désinformation, pour évaluer la fiabilité et la crédibilité d’un site web en entrant :
Nous avons testé avec la commande “FoxNews.com Bias and Reliability” (https://www.adfontesmedia.com/fox-news-com-bias-and-reliability/ ) |
Les liens en cache permettent de consulter une page Web telle qu’elle s’affichait lors de la dernière exploration Google.
Il est également possible de cliquer sur la petite flèche verte située à la droite du lien vert dans les résultats de requêtes |
Cette commande, très utilisée par les référenceurs renvoie des indications sur le passage de Google sur chaque page. Elle n’est pas très utile pour la recherche. Elle peut être utile si l’on veut mesurer la popularité d’un site web concurrent par exemple (en évaluant la fréquence de passage de Google grâce à la date et heure d’indexation qui s’y inscrivent), ou quand on tombe sur une page 404 en accédant parfois à une version antérieure de celle-ci, le cache donnant accès au cliché de la page réalisé lors de sa dernière indexation. |
s’écrit également
Limite les résultats aux pages dont le nom se termine par un suffixe. Le suffixe est tout ce qui suit le dernier point du nom de fichier de la page web et peut comporter de nombreux caractères.
Notez que l’opérateur |
renvoie les fichiers PDF qui correspondent aux termes «search», «engine», «guidelines» et qui sont des pages dont le nom se termine par pdf.
On peut par exemple écrire :
Cette commande est particulièrement précieuse pour trouver sur le web des rapports de sociétés ou des études (le plus souvent publiés en format pdf), des présentations en ppt, des tableaux de données excel, etc.
Signalons par ailleurs qu’il existe beaucoup de moteurs de recherche pdf (que l’on trouve facilement avec la requête |
indique à Google que vous ne voulez que les résultats qui incluent le terme de recherche dans leur balise metatitle. Cet opérateur, dont certains disent qu’il est tombé en désuétude, peut aider à affiner sa recherche en la restreignant à l’équivalent du headline dans un document structuré.
note : la première commande ne prend en compte qu’un seul mot et la seconde avec le préfixe all (règle commune à plusieurs opérateurs Google) prend en compte tous les mots. |
renverra les documents qui mentionnent le mot «help» dans leur titre, et qui mentionnent les mots «flu» et «shot» n’importe où dans le document (titre ou non).
ne renverra que les documents qui contiennent les mots «university» et «relations» dans le titre de la page.
Cet opérateur est très utilisé par les référenceurs et les aide à comprendre combien de pages ciblent une expression de recherche particulière. Ils peuvent ainsi vérifier les niveaux de compétitivité des mots-clés et trouver des opportunités de backlinks. |
limite les résultats à ceux qui contiennent les termes de la requête spécifiée dans l’URL
note : la première commande ne prend en compte qu’un seul mot et la seconde avec le préfixe prend en compte tous les mots |
Par exemple,
Cet opérateur a pour effet de réduire drastiquement les résultats et de cibler très précisément un objet de recherche. Peut être utilisé pour trouver des concurrents directs ou des opportunités de backlinks pour le référencement. |
répertorie les pages qui sont similaires à la page web que vous spécifiez. |
affichera les pages web qui sont similaires à la page d’accueil de Wikipedia.
Malheureusement cette fonction semble être en voie de désuétude et donne des résultats parfois très pauvres, mais elle permet néanmoins d’avoir parfois, avec un peu de chance, une idée de la façon dont Google catégorise un site Web et ses concurrents. A utiliser donc pour trouver les concurrents d’un site ou pour comprendre comment Google catégorise votre propre site web. |
Incursion dans le Dorking : un intérêt pas si évident malgré la proximité
Quitte à se laisser inspirer par des secteurs voisins, nous avons regardé les techniques de «recherche intensive» sur le web, pratiqués par les adeptes du Google Dorking plus connu sous le nom de piratage ou hacking.
Le point commun entre les pratiques de recherche experte sur Google telles que nous les recommandons et le Google Dorking est l’utilisation des opérateurs de Google avec des combinaisons particulièrement inventives. Un Google Dork est en fait une requête constituée de termes de recherche et d’opérateurs de recherche avancés. La grande différence est bien sûr l’utilisation qui est faite de cette créativité, le dorking étant axé sur la découverte des informations que l’on peut pudiquement désigner par «non destinées au public».
Signalons au passage la GHBD ou Google Hacking Database (https://www.exploit-db.com/google-hacking-database), base de données qui stocke toutes les requêtes de Google utilisées par les hackers et les spécialistes de la sécurité informatique pour rechercher les failles de sites Web.
Il est donc a priori intéressant de regarder ces pratiques et se demander ce qu’elles peuvent nous apporter et si les nombreuses combinaisons de requêtes peuvent être des sources d’inspiration.
En dehors de l’impressionnante créativité de ces Dorks, nous retenons principalement que l’on peut sans crainte multiplier les opérateurs dans une requête et qu’aucun opérateur, même ceux réputés en voie de disparition, n’est à bannir. Par ailleurs, on peut trouver sur ces sites des exemples de requêtes qui sont des illustrations de combinaisons efficaces d’opérateurs avancés et à ce titre peuvent nous donner des idées de création de requêtes en transposant à nos propres problématiques :
- budget site:dhs.gov filetype:xls nous donnera toutes les feuilles de calcul xls accessibles au public avec le mot «budget» sur le site Web du Département américain de la sécurité intérieure
Cela étant, l’exploration de la GHDB et d’un certain nombre de sites de vulgarisation de ces requêtes, ne nous permet pas d’affirmer que le sujet mérite un réel investissement, à la différence des sites de SEO ou d’OSINT. Il y a tout d’abord le risque d’être assimilé par Google à des hackers (une utilisation soutenue des opérateurs avancés de Google déclenche déjà souvent la demande de click de Google: «je ne suis pas un robot»), et le recours à des protections (VPN, moteurs alternatifs,…) suppose déjà une réelle motivation. Ensuite, la focalisation première de ces listes de Dorks sur la recherche des données sensibles (noms d’utilisateurs, mots de passe, listes d’email, renseignements personnels, financiers et autres) crée un registre d’utilisation des commandes assez difficilement transposables vers des requêtes «normales». Enfin, ces commandes sont basiquement des commandes génériques destinées à attaquer le web de façon massive et il est très difficile de savoir comment les adapter à une problématique personnalisée.