Google : du discours officiel à la réalité du terrain
On ne peut parler de recherche sur le Web sans parler de Google. Malgré tous ses défauts, il reste incontournable dans la majorité des recherches d’informations professionnelles et continue d’y occuper une place prépondérante.
Les innovations majeures annoncées par Google
A la mi-octobre, Google a choisi de communiquer sur ses dernières innovations en matière de « search » lors d’un événement virtuel appelé « Search on ».
Prabhakar Raghavan, responsable de la recherche chez Google, y annonçait que :
« grâce aux récents progrès de l’IA, nous faisons de plus grands pas en avant dans l’amélioration de Google que ce que nous avons vu au cours de la dernière décennie, il est donc encore plus facile pour vous de trouver exactement ce que vous cherchez. »
S’il est clair que Google innove à grand pas, dire que rechercher de l’information sur Google est d’une très grande simplicité reste à prouver, notamment dans un contexte professionnel.
Reprenons ici point par point chacune des innovations et leur impact possible sur la recherche d’information professionnelle.
La place grandissante de BERT dans l‘écosystème Google
Il y a un an, Google annonçait le lancement de son nouvel algorithme BERT, qui permet à Google de mieux comprendre les requêtes en langage naturel des internautes. Même si Google travaille depuis déjà plusieurs années sur le traitement du langage naturel (NLP) avec la prise en compte des synonymes, etc., BERT, lui permet de mieux comprendre les liens entre les différents termes de la question, le contexte et l’intention de l’utilisateur.
Google vient d’annoncer que cet algorithme est désormais utilisé pour toutes les requêtes en anglais. On sait également qu’il est utilisé pour les requêtes en français mais probablement pas encore pour 100% des requêtes.
Notre avis :
Google essaye toujours davantage de comprendre l’intention derrière la requête d’un utilisateur. Il faut donc éviter de rechercher comme on le ferait sur des outils professionnels classiques avec des longues requêtes booléennes au risque de brouiller son message. A l’usage, on se rend compte qu’il est plus efficace de rechercher sur Google en langage naturel qu’en utilisant des requêtes par mots-clés classiques ou des requêtes booléennes. Par contre, pour que le moteur comprenne bien l’intention de la requête, il est préférable de préciser au maximum ce que l’on recherche
Si je fais une recherche sur un concurrent par exemple, j’évite de rechercher simplement sur le nom du concurrent car Google ne va pas comprendre précisément ce que je cherche à savoir mais je relance plusieurs requêtes pour lui préciser ce que je recherche, comme par exemple:
- nom du concurrent résultats financiers ou même résultats financiers de nom du concurrent
- nom du concurrent lancement de produits ou même derniers lancements de produits de nom du concurrent
- nom du concurrent innovation
- etc.
Orthographe
Google a également présenté un nouvel algorithme fondé sur un réseau de neurones profonds qui lui a permis d’améliorer sa capacité à déchiffrer les fautes de frappe.
Notre avis :
Si Google en parle comme d’une avancée majeure, cela concerne avant tout la recherche grand public plus que professionnelle.
Cela peut être néanmoins utile pour des langues que l’on ne maîtrise pas parfaitement.
L’indexation de passages précis issus des pages Web
« Les requêtes les plus spécifiques sont les plus difficiles à traiter, car le plus souvent, la phrase précise qui répond à la question est enfouie parmi de multiples autres informations sur une page Web. (...) « Grâce à notre nouvelle technologie, nous serons en mesure de mieux identifier et comprendre les passages clés d’une page Web. Cela nous aidera à montrer le contenu qui pourrait autrement ne pas être considéré comme pertinent lors de l’examen d’une page seulement dans son ensemble .... » (Google)
D’après Google, cette nouveauté devrait permettre au moteur d’améliorer 7 % des recherches dans toutes les langues, même si cela n’est pour l’instant disponible que pour l’anglais.
Notre avis
Même si cela ne va pas déboucher sur une fonctionnalité de recherche en tant que telle, cette annonce est très intéressante pour les professionnels de l’information qui recherchent bien souvent des aiguilles dans des bottes de foin.
Il faut comprendre que jusqu’à présent, Google prenait en compte tout le contenu d’une page Web dans son ensemble, pour en évaluer l’adéquation vis-à-vis d’une requête.
A titre d’exemple, si un article parlait d’une visite scolaire dans les entreprises de la région, Google allait globalement considérer que c’était le sujet principal de l’article. Et même s’il y a un bref passage au milieu du contenu sur la description d’une usine qui a été visitée et qui contient des détails extrêmement intéressants, il y avait peu de chance que cela ressorte lors d’une recherche sur le nom du concurrent. Avec cette évolution, il est possible que cela apparaisse.
Si cela ne change pas la façon de rechercher, cela signifie surtout que Google va mieux faire ressortir des sites qui n’appliquent pas à la lettre les consignes de SEO (qui conseillait jusqu’à maintenant de fractionner le contenu pour être optimisé autour d’une seule idée ou mot-clé) comme un sujet par page, etc., ce qui est très souvent le cas des sites d’experts.
On suivra de près cette évolution dans les mois à venir.
De nouveaux filtres par sujet
Autre nouveauté, la catégorisation des requêtes en sous-sujet.
« Nous avons eu recours aux réseaux de neurones profonds pour identifier les différents sous-sujets liés à un sujet, ce qui nous permet de vous proposer une plus grande diversité de contenus même lorsque votre requête est assez générale. Par exemple, si vous tapez “appareils d’exercice à la maison”, nous pouvons désormais vous proposer différents sous-sujets pertinents, tels que les appareils bon marché, les appareils premium ou les appareils adaptés aux petits espaces, et vous présenter ainsi un large éventail de contenus sur la page des résultats de recherche. Nous allons commencer à déployer cette technologie à la fin de l’année. » (Google)
Notre avis :
Si l’idée semble intéressante, il est tout de même fort probable que cela s’applique surtout à des thèmes grand public comme c’est déjà le cas pour le moteur d’images qui propose aussi des filtres par catégorie. Il ne faut pas oublier que le but premier de Google est la vente de produits et l’exemple même pris par Google pour illustrer cette nouveauté le montre bien !
On pourra tout de même voir à l’usage si cela peut être utile quand on aborde un nouveau sujet pour en défricher l’environnement.
Une autre approche des datasets
La recherche de données et notamment de données chiffrées sur le Web n’est pas simple car elles sont parfois enfouies au milieu d’autres contenus. Google s’intéresse à ces contenus depuis déjà quelque temps mais continue sa route en développant d’autres projets.
Voir notre article : "Méthodologie et outils pour la recherche de statistiques" - NETSOURCES n°145, mars/avril 2020
Il propose depuis maintenant quelques années le moteur Dataset Search qui vient d’ailleurs de sortir de sa version bêta. Il existe aussi Google Public Data (https://www.google.fr/publicdata/directory), une sorte d’annuaire qui regroupe certaines données et indicateurs de quelques grands organismes comme Eurostat, la Banque mondiale, etc.
Google a décidé d’aller plus loin grâce à son partenariat avec le projet Data Commons, une base de connaissances qui recense des données statistiques, lancée en 2018 en collaboration avec le Bureau de recensement des États-Unis, la CDC (principale agence fédérale des États-Unis en matière de protection de la santé publique), la Banque mondiale et de nombreux autres acteurs.
« Désormais, lorsque vous posez une question telle que “quel est le taux de croissance du PIB aux États-Unis”, nous utilisons le traitement du langage naturel pour établir une correspondance entre votre requête et l’un des milliards de points de données présents dans Data Commons afin de vous fournir le bon chiffre dans un format offrant une compréhension et une visualisation facile. » (Google)
Notre avis :
Concrètement, Google va utiliser cette masse de données pour proposer directement la réponse à une question dans un featured snippet (cet encadré qui s’affiche parfois au-dessus des résultats naturels), sauf qu’il ne s’agira pas cette fois-ci d’un bloc de texte mais d’un graphique ou d’un chiffre.
L’idée d’obtenir des données chiffrées à portée de clic est bien évidemment séduisante mais il faut rester prudent.
Même si les sources utilisées par Google pour récupérer ces données sont fiables, il n’en reste pas moins qu’en matière de données chiffrées, il faut toujours recouper les données entre elles pour être au plus proche de la réalité. On ne se fiera donc pas aveuglément aux jolis graphiques affichés par Google en exergue des résultats.
Autres innovations
Parmi les autres innovations présentées par Google, on citera également :
- la possibilité d’identifier les différents moments-clés d’une vidéo, ce qui permettra d’accéder plus vite à la partie qui nous intéresse ;
- la possibilité de rechercher des chansons et musiques en les fredonnant dans l’app mobile de Google ;
- l’amélioration constante de Google Lens pour la recherche visuelle.
Et Google de conclure :
« Où que vous soyez et quoi que vous cherchiez, il vous suffit désormais de chanter, dicter, parler ou prendre une photo pour faire une recherche sur Google. »
On voit bien ici l’influence grandissante du multimédia et les nouvelles façons de rechercher que cela fait émerger. Il faudra continuer à suivre ces évolutions même si aujourd’hui, la recherche d’information professionnelle reste avant tout textuelle. Les autres modes de recherche étant pour le moment réservés à l‘usage récréatif et personnel.
Ce qui pose problème dans le discours de Google, c’est cette volonté de faire croire qu’avec ces récentes évolutions, la recherche sur le Web est désormais un jeu d’enfant. Un peu comme ces plateformes de veille qui veulent vous faire croire que la veille peut se réaliser en seul un clic.
Bien rechercher sur Google, cela s’apprend et c’est loin d’être aussi intuitif qu’il n’y paraît. Au contraire, c’est même de plus en plus complexe si l’on veut aller au-delà d’une question basique. Et contre toute attente, certaines voix chez Google le reconnaissent volontiers, comme nous allons le voir par la suite.
Quand le Research scientist de Google va à l’encontre du discours officiel
Alors que le discours officiel de Google tend à faire apparaître la recherche sur le Web comme une action de plus en plus simple, des voix en interne considèrent pourtant que rechercher dans Google nécessite un apprentissage et une formation.
C’est notamment le discours de Daniel Russell, Research scientist chez Google depuis 15 ans. Son métier : comprendre comment les gens recherchent de l’information, quel est leur cheminement de pensée, et enseigner comment mieux rechercher sur le Web. Il est également l’auteur d’un ouvrage récent intitulé « The Joy of Search: A Google Insider’s Guide to Going Beyond the Basics ».
Lors du salon Internet Librarian Connect, qui a habituellement lieu en Californie mais s’est tenu cette année en visioconférence et auquel nous avons assisté, Daniel Russell a délivré une présentation très intéressante intitulée « The Joy of Search: Augmenting Intelligence by Teaching People How to Search ».
Et le moins que l‘on puisse dire, c’est que cela n’a pas grand-chose à voir avec le discours officiel de Google.
La recherche d’information ne se résume pas à une recherche rapide sur Google
Il reconnaît lui-même qu’une grande partie des internautes ne comprennent pas le fonctionnement de Google. Il réalise régulièrement des études pour comprendre la perception que les gens ont de Google et comment ils recherchent.
A la question « Comment Google cherche-t-il ? » d’une de ses études, 33% des répondants utilisaient le terme « magic » dans leur réponse...
Daniel Russell rappelle que la recherche d’information a souvent été théorisée de la manière suivante : on définit un besoin d’information, on identifie, on localise et on évalue des sources d’information en utilisant plusieurs outils de recherche, on récupère de l’information en visitant plusieurs sites et pages, on communique ces résultats, on évalue s’il faut continuer ou non à rechercher et si oui, on repart de l’étape 1.
Dans la pratique, la majorité des internautes font une recherche rapide sur Google et s’arrêtent... Daniel Russell reconnaît lui-même que ce n’est absolument pas la bonne méthode.
Savoir ce que Google peut faire et ne pas faire
Daniel Russell explique notamment que même si Google s’améliore avec les années, il n’a pas pour autant un modèle de compréhension aussi poussé que celui d’un cerveau humain.
Par exemple, à la question « How old is Donald Trump’s wife ? », Google indique dans le «featured snippet» l’âge de Melania Trump mais aussi les âges de ses deux ex-femmes. L’algorithme est ainsi incapable de déterminer de quelle femme on veut parler.
Daniel Russell veut montrer par cet exemple qu’il ne faut pas donner à Google plus de pouvoir et d’intelligence qu’il n’en a.
Il est donc crucial de savoir précisément ce que Google peut faire et ne pas faire. Daniel Russell a ainsi pris quelques exemples des contenus dont Google dispose aujourd’hui et de ce qu’il est capable de faire :
- Google indexe presque tous les documents que le crawler peut trouver ;
- Google indexe non seulement des pages Web mais également de plus en plus de vidéos et d’images. Il a d’ailleurs scanné plus de 20 millions de livres ;
- Google comprend désormais les symboles, ce qui peut permettre de les utiliser dans sa recherche. On peut par exemple entrer What is <=>
- Google permet de rechercher à partir d’une image ;
- On peut rechercher par similarité notamment sur Google Patents ;
- etc.
Et quand on ne maîtrise pas suffisamment l’outil et son environnement, on risque de ne pas réussir à trouver la réponse à sa question.
Il y a quelques années, Dan Russell avait réalisé un test auprès de 250 ingénieurs de Google. Il s’agissait de trouver l’adresse d’une maison à partir d’une image. Aucun n’avait réussi à trouver la réponse car il fallait penser à utiliser Google Earth pour y parvenir.
Pour trouver de l’information, il faut donc travailler avec ce que l’on a, c’est-à-dire des indices. Comme il le dit lui-même « Vous ne pouvez pas trouver la réponse si vous ne pouvez pas faire le lien entre les ressources » (You can’t find the answer if you can’t link ressources together).
Mais attention, même avec la meilleure connaissance possible du web et des outils de recherche, il reste toujours des questions sans réponse car tout n’est pas encore sur le Web, d’où l’importance de penser aux archives et bibliothèques pour certains besoins d’informations.
La recherche d’information n’est pas nécessairement un processus rapide, cela peut parfois prendre du temps.
Daniel Russell constate quand même que les professionnels de l’information ont un modèle de pensée différent de la majorité des internautes, ce qui leur permet de trouver ce qu’ils recherchent.
Se former en permanence et former ses utilisateurs à la recherche
Rechercher de l’information a toujours été une compétence à acquérir mais selon lui, c’est aujourd’hui plus critique que jamais.
Un des challenges des professionnels de l’information aujourd’hui, c’est d’apprendre en permanence, faire de la veille pour être toujours à la pointe de la recherche d’information mais aussi être capable d’enseigner à son public comment utiliser tout ce qu’ils ont à disposition.
Google vu par les pros de l’info à l’Internet Librarian Connect et I-expo
Que ce soit à Internet Librarian Connect ou à I-expo, Google a encore une fois été au cœur des discussions pour tout ce qui a trait à la recherche sur le Web.
A partir des récentes évolutions et innovations de Google, de nombreux experts comme Marydee Ojala, Mary Ellen Bates ou encore Greg Notess sont venus partager leurs conseils pour rechercher au mieux sur Google.
« Ne cherchez pas la complexité, creusez en profondeur »
Comme, nous avions déjà eu l’occasion de le mentionner, les récentes évolutions de Google et notamment sa capacité à mieux comprendre la question d’un utilisateur et son intention ont conduit Google à décider unilatéralement qu’il n’était pas nécessaire d’afficher beaucoup de résultats pour une requête donnée. Si on atteignait facilement 1000 résultats visualisables il y a 10 ans, on était passé à 500 puis plutôt à 200/300 maximum ces dernières années. On constate même régulièrement que sur des questions qui devraient en principe générer de nombreux résultats, on ne dépasse même plus 150 à 200 réponses.
Les échos outre-Atlantique semblent montrer qu’aux Etats-Unis, les utilisateurs de Google sont favorisés car le nombre de résultats a baissé, certes, mais il avoisine encore en moyenne les 400 résultats visualisables.
Face à cette baisse de résultats visualisables et l’interprétation toujours plus grandissante de l’intention derrière la requête (Google interprète votre requête et tant pis si ce n’est pas ce que vous vouliez dire), il faut revoir sa façon de rechercher.
Il ne sert à rien de vouloir forcer Google à faire quelque chose pour lequel il n’est plus conçu. Il est par exemple de plus en plus difficile de forcer Google à rechercher sur une expression exacte même avec des guillemets. On évitera également de vouloir entrer à tout prix une longue requête booléenne complexe.
La devise qu’il faut adopter aujourd’hui est parfaitement résumée par Mary Ellen Bates, « Don’t get complex, dig deep » («Ne cherchez pas la complexité, creusez en profondeur»).
Il ne sert à rien d’entrer des requêtes très complexes avec de très nombreux mots-clés. Il faut au contraire suivre une piste, creuser cette piste avec différentes requêtes pour en explorer tous les recoins, explorer une nouvelle piste, etc.
Pour cela, il faut bien réfléchir en amont à ce que l’on cherche, ce que l’on veut trouver, dans quel but et surtout dans quelles sources j’ai le plus de chances de le trouver.
Pour creuser en profondeur, on pensera bien :
- à utiliser les filtres par date de Google ;
- à utiliser un VPN pour visualiser des résultats locaux ;
- à chercher des sources pertinentes puis à les explorer en profondeur en utilisant l’opérateur site: (pour plus de détails sur les opérateurs, voir l’article « Peut-on innover sur les opérateurs de recherche en s’inspirant du SEO, de l’OSINT… et des hackers ? » dans ce même numéro);
- utiliser le moteur web de Google mais également ses verticales comme Google Books, Google Patents mais aussi Google Images, qui n’a pas le même index que Google et permet d’identifier notamment des graphiques, ce qui peut être très utile pour des études de marché, ;
- utiliser la recherche mobile pour certaines fonctionnalités non disponibles en desktop.
Recourir aux moteurs verticaux de Google
En ce qui concerne, les verticales de Google, on pensera bien à suivre leurs évolutions et actualités qui ne sont pas forcément corrélées à celles du moteur général.
Certains intervenants ont ainsi indiqué que les interfaces de recherche avancée de certaines verticales de Google disparaissaient pour parfois revenir quelques années après. L’interface de recherche avancée de Google News, Google Shopping, Blogs et Groups ont ainsi disparu mais celles de Patents et Vidéos sont récemment réapparues et elles proposent quelques fonctionnalités non disponibles sur l’interface simple.
Attention également, Google Patents a toujours deux interfaces :
- l’ancienne à l’adresse google.com/patents ;
- la nouvelle à l’adresse patents.google.com.
Quand on cherche Google Patents sur le moteur Web de Google, c’est l’ancienne interface qui apparaît en premier. Or c’est celle qui propose le moins de fonctionnalités.
Les autres moteurs à la peine en matière d’innovation ?
On l’oublierait presque mais Google n’est pas le seul moteur de recherche utile pour la recherche d’information et la veille. En terme d’innovation, il faut cependant admettre qu’il fait beaucoup plus parler de lui que ses concurrents.
- Sur le créneau des moteurs généralistes, seuls Bing et Yandex sont réellement ses concurrents pour la recherche professionnelle. Bing a d’ailleurs évolué récemment grâce à l’apport de l’intelligence artificielle. Comme Google, il comprend mieux l’intention de l’utilisateur ; il vaut donc mieux l’utiliser en langage naturel plutôt qu’en entrant des requêtes booléennes. Son principal avantage par rapport à Google est qu’il affiche beaucoup plus de résultats, généralement autour de 1000.
- Si Google a peu de concurrence, il ne faut pas pour autant négliger les outils avec un positionnement original comme Millionshort qui se base sur l’index de Bing mais exclut les résultats les plus populaires pour améliorer la visibilité de la longue traîne ou Carrot2 Search qui agrège les résultats par sujets. Les résultats sont souvent complémentaires à Google. Ces outils n’ayant pas les capacités de Google à intégrer l’IA dans leurs produits, on s’en tiendra à des requêtes simples par mots-clés.
- On ne négligera pas non plus les moteurs thématiques (notamment dédiés à un secteur d’activité) qui ont l’avantage de proposer des corpus qualifiés sur un sujet.
Enfin, il existe quelques nouveaux moteurs comme :
- PUBLC (https://publc.com/), un moteur collaboratif qui replace l’humain dans le processus de recherche ;
- Neeva (un projet d’ex salariés de Google dont nous avions parlé dans le précédent numéro de BASES qui sera lancé dans quelques mois) ;
- et enfin Cliqz, un moteur européen qui a malheureusement disparu aussi vite qu’il est arrivé en raison de problèmes de financement lié à la crise de la Covid-19.
Somme toute, tous les experts de la recherche et de la veille présents aux différentes conférences s’accordent à dire que Google reste la pierre angulaire de la recherche sur le Web ouvert mais qu’il faut suivre attentivement ses nombreuses évolutions pour adapter ses pratiques de recherche à ses nouveaux modes de fonctionnement. Parallèlement, il faut avoir conscience que Google, seul, ne suffit pas et qu’il faut explorer une multitude d’autres petits outils de recherche jusqu’à ce qu’on obtienne le résultat escompté.