Le dernier trimestre 2024 marque un tournant décisif dans l’évolution de nos métiers. L’émergence d’outils autonomes au potentiel disruptif met au défi de l’adaptation les pratiques éprouvées des professionnels de l’information et leur rôle d’intermédiation.
Ce numéro de NETSOURCES explore cette nouvelle étape à travers trois regards complémentaires.
Véronique Mesguich analyse comment OpenAI ne se contente pas de concurrencer Google avec SearchGPT, mais revisite l’expérience de recherche d’information (« SearchGPT vs Google AI vs Copilot : la bataille des géants pour réinventer la recherche web »).
Cette génération d’outils, avec sa puissance de synthèse et la génération contextuelle de contenus, remet en question notre rapport même aux sources. En proposant des synthèses dont la traçabilité échappe souvent à notre contrôle, elle fragilise davantage la notion de référence aux sources, pilier de la recherche professionnelle déjà ébranlé par l’écosystème Internet. C’est la fiabilité même du travail informationnel qui est en jeu, au-delà des impacts sur le modèle économique des moteurs traditionnels et du système de référencement commercial.
Le décryptage que fait Ulysse Rajim sur l’avènement des agents IA révèle une autre dimension de cette transformation (« Repenser la veille à l’ère des agents IA »). Ces systèmes semi-autonomes, capables de planifier et d’exécuter des séquences d’actions complexes, préfigurent l’avenir de nos outils professionnels. Leur capacité à combiner planification et exécution, même à un niveau d’autonomie encore modéré, annonce une transformation de nos méthodes de travail.
Enfin, les retours d’expérience du Forum de l’IES, analysés par Corinne Dupin, apportent un éclairage précieux sur ces évolutions. Les enseignements qui en émergent - de la contextualisation des demandes au contrôle continu des résultats — dessinent les contours d’une utilisation raisonnée de l’IAG et d’une nouvelle maturité dans notre approche des IAG (« Quand la vitesse et la puissance de calcul des IAG dépassent l’humain et invitent à réévaluer les pratiques de veille et d’intelligence économique »).
Ces trois analyses convergent vers un constat commun : l’accélération technologique nous ramène paradoxalement aux fondamentaux de nos métiers. Le sens critique, la rigueur méthodologique et l’intelligence collective deviennent plus essentiels que jamais.
Annoncé l’été dernier par OpenAI sous forme de prototype, le moteur de recherche SearchGPT a été lancé en novembre pour les utilisateurs de la version premium et est depuis le 17 décembre accessible gratuitement à tous.
Au-delà d’un moteur de recherche classique, SearchGPT allie les capacités de génération de texte et de recherche contextuelle du modèle de langage d’OpenAI pour offrir une nouvelle expérience de la recherche d’informations.
OpenAI renforce ainsi sa concurrence directe non seulement avec des services de recherche basés sur l’IA comme Perplexity ou You.com, mais aussi avec les géants du Search en ligne que sont les moteurs Google ou Microsoft Bing Copilot. Doit-on en attendre une transformation radicale du paysage des outils de recherche ? Ou bien s’agit-il d’une tentative de la part d’OpenAI destinée à capter une part du marché lucratif de la recherche web, en « disruptant » le modèle économique ?
SearchGPT est une extension de l’intelligence artificielle conversationnelle GPT, spécifiquement optimisée pour la recherche d’informations. Contrairement à un moteur de recherche classique qui restitue des résultats sous forme de liste de liens vers des pages web, SearchGPT combine les capacités d’analyse contextuelle, de synthèse et d’interaction conversationnelle du modèle de langage GPT, en les adaptant à la recherche web.
Concrètement, le moteur est basé sur la technologie de génération augmentée de récupération (Retrieval Augmented Generation, ou RAG). Cette technologie RAG se retrouve dans de nombreux moteurs de recherche basés sur l’IA, comme Perplexity par exemple, de façon à obtenir des réponses précises et contextualisées à partir d’un corpus défini, en réduisant ainsi les risques d’erreur ou d’hallucinations.
Cette approche combine les capacités des modèles de langage génératifs avec l’accès à des données web en temps réel, permettant à SearchGPT de fournir des réponses en s’appuyant sur une sélection de sources web. OpenAI n’est guère transparent sur les modalités d’accès au web de son crawler, et plusieurs informations contradictoires circulent. On peut estimer qu’une partie des données provient de l’index du moteur Bing, grâce au partenariat historique entre OpenAI et Microsoft. Mais SearchGPT exploite également son propre robot d’exploration, l’« OAI-SearchBot », développé par OpenAI pour parcourir et indexer des pages web. Le moteur passerait de plus par des API spécialisées vers des sources spécifiques (par exemple, des bases de données ouvertes).
L’usage de SearchGPT est désormais, depuis le 17 décembre, accessible à tout utilisateur de la version gratuite de ChatGPT.
L’accès à la recherche web se matérialise sous la forme d’une icône en forme de mappemonde dans l’interface du robot conversationnel :
La recherche s’effectue en langage naturel, sous forme de prompt. Grâce au modèle de langage GPT, le moteur convertit le prompt en vecteurs numériques, de façon à activer ses mécanismes d’attention et à « comprendre » le contexte et la sémantique des mots présents dans le prompt, ainsi que l’intention de l’utilisateur. Le moteur interroge ensuite son index (composé comme mentionné plus haut des index de plusieurs crawlers web, et d’accès directs à des sources d’informations) pour identifier des contenus pertinents répondant à la requête.
C’est dans la génération de la réponse que SearchGPT se démarque le plus des moteurs web classiques : la réponse consiste en effet en une synthèse de plusieurs résultats trouvés par le moteur, et générée par le modèle de langage GPT.
Déjà abonné ? Connectez-vous...
2024 marque un tournant dans l’histoire de l’intelligence artificielle : après les chatbots et les copilotes, une nouvelle génération d’outils fait son apparition - les agents IA. De Microsoft à Salesforce, en passant par Google et Anthropic, les géants de la tech investissent massivement dans ces systèmes capables de planifier et d’exécuter des séquences d’actions complexes. Dans cet article, nous explorerons ce nouveau développement dans le paysage de l’IA et ses impacts sur le métier de la veille.
En 2023, après la sortie de ChatGPT quelques mois plus tôt, les chatbots s’imposaient comme la technologie phare de l’année. De Bing Chat à Claude, en passant par Gemini, les agents conversationnels étaient au centre de l’attention.
En 2024, ce sont les assistants IA (aussi appelés « copilotes ») qui font leur apparition, en s’inspirant de la fonctionnalité Github Copilot, elle-même mise à disposition du grand public en juin 2022. Plusieurs copilotes sont alors annoncés : Microsoft 365 Copilot, EinsteinGPT (Salesforce), Joule (SAP) ou encore Gemini (Google), pour en citer quelques-uns.
Les chatbots et copilotes ont un fonctionnement linéaire. Ils reçoivent une question et fournissent une réponse immédiate, avec un raisonnement rapide et relativement superficiel.
Les agents IA, en revanche, présentent un fonctionnement itératif, les rendant capables d’exécuter des séquences d’actions, avec un raisonnement plus lent, mais plus profond.
Un agent IA se distingue donc d’un chatbot traditionnel par les capacités suivantes :
Dans la suite de cet article, nous présenterons deux exemples d’agents IA pour illustrer ces trois capacités.
Pour comprendre où nous en sommes dans l’évolution des agents IA et où nous allons, il est utile d’emprunter un cadre conceptuel au domaine des véhicules autonomes. Ce parallèle nous permet de mieux appréhender les différents degrés d’autonomie possibles et de situer l’état actuel de la technologie.
Les six niveaux d’autonomie de véhicules autonomes définis par la Society of Automotive Engineers en 2014 se déclinent ainsi :
Selon les experts, l’autonomie des agents IA en 2024 se situe entre le niveau 1 et le niveau 2. Bien que nous soyons encore loin de l’automatisation complète, nous assistons au passage d’une IA simple assistante (mode « copilot ») à des systèmes semi-autonomes, qui exigent toutefois une supervision humaine constante.
À ce jour, la majorité des agents IA actuels restent spécialisés (« narrow AI »), loin d’une IA générale parfaitement polyvalente (« Artificial General Intelligence »).
Dans le domaine de la veille, nous pouvons nous attendre à un impact à plusieurs niveaux :
Déjà abonné ? Connectez-vous...
L’IAG s’invite à l’IES (1) : plusieurs cas d’usage, quelques métriques et surtout une forte incitation à réévaluer les pratiques des acteurs de la veille et de l’IE à l’aune d’un outil qui va plus vite qu’eux à une échelle qui les dépasse.
Si l’intelligence artificielle truste les conversations, les salons et autres événements depuis l’avènement des IA génératives (IAG), le forum de l’IES ne fait pas exception et s’est largement fait l’écho des questionnements actuels sur leur intégration aux pratiques professionnelles. Pas moins de trois sessions plénières et une table ronde lui étaient consacrées.
(1) L’IES est un événement organisé tous les deux ans par la Commission Intelligence Stratégique et Prospective de 3 AF (Association Aéronautique et Astronautique de France), qui réunit des acteurs de la veille et de l’intelligence économique de différents horizons (et pas seulement de l’industrie aéronautique). La dernière édition s’est tenue les 20 et 21 novembre dernier à Strasbourg.
Les retours d’expérience les plus opérationnels ont été le fait du groupe de travail « Cycle de l’information et IA » de 3AF, composé d’acteurs industriels (Safran), de la recherche (Onera, Cetim), de la veille (Esprits collaboratifs) et institutionnels (DGAC, Université de Strasbourg). Le collectif a éprouvé 5 LLM (Large Language Models) : Perplexity, Gemini, ChatGPT, Copilot et LLaMA, dans l’exercice de différentes activités de veille. Au total, 37 cas d’usage, dont plus de 60 % concernaient des tâches relatives à la collecte et au traitement de l’information - les plus chronophages, celles que le veilleur délègue le plus volontiers.
L’IAG n’a pas été conçue pour assurer une reproductibilité compte tenu de son mode de fonctionnement qui s’appuie sur la probabilité, la prédiction et l’apprentissage statistique.
Le défaut de reproductibilité des cas d’usage concerne plus de 60 % des cas testés par le groupe de travail « Cycle de l’information & IA ». Peu de cas d’usage peuvent être reproduits (30 % seulement), ce qui met à mal leur industrialisation.
Moins de 20 % des cas d’usage du même groupe de travail ont produit des résultats à valeur ajoutée. L’IAG génère un gain de temps dans la réalisation, mais le temps incompressible de contextualisation de la demande, puis de contrôle et de vérification des réponses confine souvent à une perte de performance.
Déjà abonné ? Connectez-vous...
À l’heure où OpenAI lance SearchGPT, son propre moteur de recherche intégré directement dans son chatbot, une question brûle sur toutes les lèvres : SearchGPT va-t-il détrôner Google ?
Au-delà de la « simple » question du modèle économique de Google et toutes réserves faites par ailleurs sur la robustesse des modèles d’IA face à leurs ambitions de déploiement planétaire, une autre question tout aussi cruciale nous semble se profiler : comment notre « expérience d’utilisateurs professionnels » est-elle transformée par les nombreux acteurs émergents de la recherche et de la veille ?
Depuis plusieurs mois, ces nouveaux acteurs consolident leur place et élargissent considérablement le champ d’utilisation opérationnelle des outils de veille et de recherche tels que nous les pratiquions jusqu’ici.
Dans ce nouveau numéro de Netsources, nous explorons ces transformations avec l’article de Véronique Mesguich qui analyse la concurrence entre You.com, «moteur de productivité polyvalent», et Perplexity, ainsi que l’article d’Ulysse Rajim sur NotebookLM, dont il analyse le rôle d' «un assistant pour la veille augmentée». Notons tout de même au passage que NotebookLM est produit par... Google.
Nous découvrirons sous leur plume comment ces moteurs ne se contentent plus d’afficher des résultats bruts. Ils permettent aux professionnels de l’information de réaliser des synthèses claires et structurées, enrichies par le traitement de très grandes quantités d’informations de multiples sources. L'information est désormais beaucoup plus facilement manipulable, permettant une structuration et un enrichissement en temps réel grâce à une grande puissance de traitement d'énormes volumes de données. Cela offre une nouvelle façon de gérer la connaissance, ce qui est essentiel pour la gestion de masses d'informations et de connaissances. L'utilisateur peut ainsi naviguer entre différents modes-recherche, génération de contenu et même création d'images-en fonction de ses besoins.
Nous serons également très attentifs à la méthode innovante et personnalisée que nous propose Ulysse Rajim avec un véritable guide de l’automatisation de la veille grâce à l’IA.
Le lecteur pourra mesurer en filigrane comment ils modifient en profondeur la collecte, le filtrage et l’analyse de l’information ainsi que la gestion des connaissances au sein des entreprises, en les rendant accessibles et exploitables par différents services et équipes à une échelle beaucoup plus large.
Automatiser sa collecte d'informations, synthétiser des documents très volumineux, personnaliser ses agents de recherche, toutes ces possibilités sont désormais à votre portée. L’idée est d’exploiter l’IA non pas comme une curiosité technologique, mais comme un véritable levier de productivité et de performance.
« Moteur de productivité » : c’est ainsi que se définit la plateforme You.com. Ce concept de productivité, souvent associé à des outils de travail collaboratif comme Notion ou Trello, serait-il annonciateur d’une nouvelle dimension apportée aux outils et méthodes de recherche professionnelle d’information ?
You n’est pourtant pas totalement un nouveau venu dans le monde des outils de recherche et a déjà été chroniqué dans les colonnes de Netsources. La plateforme a été lancée en effet dès 2020 par Richard Socher, ancien Chief Scientist chez Salesforce et spécialiste du traitement du langage naturel, et Bryan McCann, chercheur en IA. À l’origine, You.com se présentait comme un moteur agrégateur de contenus issus de pages web, ou de sources spécialisées (Reddit, LinkedIn…), la recherche web s’appuyant notamment sur le moteur Bing.
Depuis 2023, la plateforme a pris le virage des technologies d’IA générative et propose non seulement des services de recherche, mais également des applications d’aide à la rédaction, à la création d’images, ou encore au codage. You.com se présente ainsi désormais comme un assistant IA personnalisé. Commençons par un tour d’horizon de ses principales fonctionnalités.
Figure 1 : la page d’accueil de You.com
L’interface de You est assez sobre et riche en fonctionnalités. La page d’accueil donne le choix entre plusieurs agents.
L’agent « Smart » correspond au mode de recherche par défaut, et fonctionne à la manière de Perplexity. Le moteur extrait du web une dizaine de sources et effectue une synthèse en faisant référence à (seulement) quelques sources, parmi la dizaine figurant sur le panneau latéral à droite. Ce panneau offre également la possibilité d’effectuer des recherches d’images, vidéos et articles d’actualité (à noter que cette dernière fonctionnalité est basée sur le « news endpoint » de son API et dédiée à la recherche d’articles américains, donc inopérante pour des articles en français).
Figure 2 : Présentation des résultats de recherche de You.com en mode « Smart »
Le mode Research permet d’aller plus loin et génère une synthèse un peu plus longue, faisant référence à davantage de sources parmi les résultats de recherche mentionnés à droite.
Le mode Genius est conçu pour interagir avec l’utilisateur sous forme de conversation structurée. Ce mode multitâche est plutôt destiné à générer du code, ou résoudre des problèmes mathématiques. On peut l’utiliser également pour extraire des données d’un texte, et les présenter sous forme de tableau ou graphique, ce que le mode Smart n’effectue pas de manière satisfaisante.
L’onglet GPT-4o est explicite : il offre l’ensemble des fonctionnalités de GPT-4o, y compris l’accès au web en temps réel. D’autres modèles de langages sont également disponibles : GPT-4Turbo, Claude 3 Sonnet, Claude 3 Haiku, Gemini 1.5, Llama3, Mistral Large2… Les utilisateurs de la version Pro ont accès de plus à o1Preview (le nouveau modèle d’OpenAi) ou Claude3 Opus.
Enfin, You.com dispose d’une fonctionnalité de génération d’images à partir de descriptions textuelles, via son outil YouImagine, intégré dans le mode « Creative ». Alimenté par des modèles d’intelligence artificielle comme StableDiffusion, YouImagine propose des options de style artistique variées, y compris le modèle Open Journey, inspiré du style de Midjourney. Les images générées sont ainsi plus réalistes que les créations de ChatGPT via son outil de génération DALL-E.
Il est possible de travailler sur des sources spécifiques. Le bouton + dans le bandeau de conversation, donne accès à une nouvelle interface intitulée « Manage sources ». On peut y charger des documents en format texte, données ou image afin d’en effectuer des résumés, extractions ou analyses. Prometteuse également, la possibilité de limiter la recherche à un site donné et de poser des questions sur le contenu du site, en paramétrant préalablement le niveau d’exploration du site.
Figure 3 : Paramétrage de sources spécifiques
Cette option est malheureusement limitée dans la version gratuite, avec un seul chargement quotidien d’un document ou d’un site spécifique.
L’écosystème de You.com intègre plusieurs agents spécialisés. YouChat est l’assistant virtuel intégré à la plateforme qui permet d’interagir de manière conversationnelle. YouWrite est un outil destiné à la rédaction de contenu de toute nature. YouWrite, à l’instar de ChatGPT, offre différentes tonalités de rédaction (formelle, décontractée, persuasive, informative, etc.) Quant à YouCode, il s’agit d’un module spécialement conçu pour les développeurs. Toutes ces fonctionnalités sont désormais intégrées dans la plateforme You.com et ne sont plus accessibles en tant que telles.
Déjà abonné ? Connectez-vous...
La veille, on le sait, est une activité en première ligne face à la surcharge informationnelle.
Ce défi, auquel le veilleur est confronté quotidiennement, a été pris en compte par les plateformes de veille depuis plusieurs années, avec des résultats variables. Récemment, cependant, ces plateformes ont franchi une nouvelle étape en intégrant l’intelligence artificielle (cf. Netsources 171).
Quant à la majorité des veilleurs confrontés à la gestion quotidienne de cette infobésité, l’utilisation de l’IA représente également un atout considérable dans leur gestion quotidienne de l’information.
L’intelligence artificielle, et notamment les Large Language Models (LLMs), offrent des solutions pour relever ce défi en automatisant les tâches les plus chronophages du processus de veille : extraction des contenus, première phase d’analyse, catégorisation et synthèse. Nous proposons ici de vous guider avec une approche pragmatique pour intégrer ces nouvelles capacités dans vos workflows, en s’appuyant sur des outils d’automatisation et d’IA générative accessibles à tous.
L’automatisation par IA permet d’optimiser significativement le processus de veille en intervenant sur trois axes clés :
a) Collecte intelligente : au-delà de la simple agrégation de contenu, l’IA peut filtrer, classifier et prioriser l’information dès sa détection.
b) Analyse avancée : les LLMs excellent dans l’extraction de l’essence de grandes masses de contenus, la détection de tendances et la mise en relation d’informations issues de sources diverses.
c) Synthèses sur mesure : l’IA peut générer rapidement des synthèses personnalisées selon différents formats (rapports, briefs, bulletins, dashboards), tout en s’adaptant aux contraintes fournies par l’utilisateur.
Après la phase initiale de mise en place, un tel dispositif de veille augmentée permet de réduire significativement le temps consacré aux tâches répétitives pour se concentrer sur la curation, l’analyse stratégique et la diffusion ciblée de l’information.
Pour mettre en place une veille efficace assistée par IA, vous aurez besoin de trois types d’outils :
a) Plateformes d’automatisation
Les outils d’automatisation jouent un rôle clé en permettant de capturer l’information sans intervention manuelle. Parmi les solutions disponibles, nous en noterons trois :
Déjà abonné ? Connectez-vous...
À l’ère de l’IA générative, les outils de veille évoluent pour offrir de nouvelles capacités d’analyse documentaire.
Parmi les nouveaux venus dans l’écosystème des outils d’IA pour la veille, NotebookLM se positionne comme un assistant de recherche et d’écriture basé sur l’IA. Ce service, développé par Google, pourrait aider les professionnels de l’information à interagir plus facilement avec de multiples sources de données disparates.
Avec la capacité d’analyser des quantités importantes de texte, jusqu’à plusieurs milliers de pages d’un coup, et de traiter différents types de contenus (texte, audio, images, vidéos), NotebookLM répond bien aux besoins du professionnel de l’information moderne. Explorons comment cet outil, intégrant l’IA de manière native, pourrait influencer les pratiques de veille en permettant une exploration plus riche et contextualisée des données.
NotebookLM se base sur le dernier modèle d’IA générative de Google, Gemini 1.5 Pro. Ce modèle est conçu pour être multimodal et capable de gérer un long contexte, avec la possibilité de traiter jusqu’à deux millions de tokens en une seule session (ce qui correspond à environ 1,5 million de mots ou 3000 pages). Cela rend NotebookLM particulièrement adapté à l’analyse de données complexes et volumineuses. Fort de ces capacités d’IA avancées, NotebookLM est un outil redoutable pour la génération de synthèses à partir de documents longs, la création de foires aux questions, de chronologies, entre autres.
NotebookLM prend en charge plusieurs formats de données, notamment l’importation de texte (texte brut, PDF, Google Docs), de présentations (Google Slides), de contenus web et de fichiers audio (MP3). Cependant, il est important de noter qu’à ce stade, NotebookLM ne tire pas pleinement parti de toutes les fonctionnalités multimodales de Gemini 1.5 Pro. En effet, à l’heure actuelle l’outil n’effectue pas une réelle recherche multimodale sur les sources. Les fichiers audio, les vidéos YouTube et les PDF sont transcrits en texte brut et perdent ainsi toute information visuelle (images et vidéos) une fois importés dans le notebook. Nous pouvons néanmoins imaginer une version future de l’outil qui utiliserait nativement ces fonctionnalités pour améliorer davantage ses capacités.
La sécurité des données est un point crucial pour le veilleur, aussi convient-il de vérifier le traitement des données effectué par Google. Dans sa politique de confidentialité, Google indique que les données personnelles ne sont jamais utilisées pour entraîner NotebookLM, mais que les données pourraient être visualisées par des réviseurs humains si vous soumettez des commentaires à partir de votre compte Google. Pour les utilisateurs Enterprise ou Éducation, les données restent privées conformément aux conditions d’utilisation de Google Workspace. Toutefois, il est important de rappeler qu’il est préférable de ne pas y importer d’informations personnelles ou confidentielles, car même si Google respecte la confidentialité des utilisateurs, la prudence est de mise.
Pour utiliser NotebookLM, un compte Google est nécessaire.
L’outil, qui était jusqu’à récemment en statut expérimental, présente encore une interface parfois peu intuitive et des boutons mêlant français et anglais. Mais l’outil évolue très vite et de nouvelles fonctionnalités sont ajoutées chaque mois. Notez également qu’il est possible d’ajouter des sources dans la langue de votre choix.
Pour commencer à utiliser NotebookLM, rendez-vous sur et connectez-vous avec votre compte Google. Une fois connecté, vous pouvez créer un premier notebook. L’interface vous proposera alors d’uploader vos premières sources. Astuce : une fois les premières sources importées pensez à nommer votre notebook pour vous y retrouver par la suite.
Les concepteurs de NotebookLM ont fait le choix judicieux de regrouper toute la documentation liée à l’outil dans un notebook d’exemple intitulé « Introduction to NotebookLM ». Cette ressource permet aux nouveaux utilisateurs de poser directement leurs questions pratiques sur le fonctionnement de l’outil, tout en se familiarisant avec son utilisation. Notre guide NotebookLM couvre déjà l’essentiel des fonctionnalités clés ; toutefois, pour toute question connexe, nous vous invitons à vous référer à ce notebook.
NotebookLM est capable de manipuler des volumes de texte importants, ce qui est particulièrement utile pour l’analyse de rapports volumineux, tels que des documents réglementaires ou des études de recherche.
Pour illustrer cette utilisation, nous allons travailler avec le texte complet du règlement de l’AI Act, disponible à cette adresse. Vous pouvez télécharger ce document pour suivre le pas-à-pas.
Déjà abonné ? Connectez-vous...
On pressent que la « révolution IA générative » va à terme jouer un rôle central dans la redéfinition des pratiques de veille stratégique et technologique. Dans ce nouveau Netsources, nous vous emmenons au cœur de cette métamorphose naissante.
Deux des experts reconnus de la veille en France, Mathieu Andro et Corinne Dupin, ont mené une nouvelle étude du marché des plateformes de veille. Nous sommes heureux d’ouvrir ce numéro avec leur analyse approfondie de l’enquête 2024. Leur étude révèle l’intégration croissante de l’IA dans ces systèmes, qui laisse présager une refonte en profondeur du modèle traditionnel du cycle de la veille.
La révolution de l’IA s’étend également au champ cognitif, démocratisant l’accès à la connaissance. Par exemple, dans le domaine scientifique, Aurélie Vathonne démontre comment de nouveaux outils dopés à l’IA permettent désormais à des veilleurs généralistes de s’immerger dans des domaines complexes, brisant ainsi les barrières d’entrée au savoir scientifique (« Comment se saisir avec pertinence de l’information scientifique lorsqu’on n’est pas scientifique ? »).
Par ailleurs, l’article « Perplexity, le couteau suisse de la découverte d’informations et de la curiosité » analyse l’évolution de ce moteur de réponses hybride, combinant les forces d’un moteur de recherche traditionnel et d’un agent conversationnel. Perplexity incarne cette nouvelle génération d’outils visant à réduire l’incertitude et à fournir des réponses claires, tout en suscitant des débats éthiques sur l’utilisation des sources et la propriété intellectuelle.
Enfin, nous aborderons une question rarement traitée, mais présente dans tous les esprits : «Faut-il optimiser ses prompts en fonction de chaque modèle d’IA ?». Cette interrogation souligne notre prise de conscience des enjeux liés à la personnalisation de nos interactions avec les modèles d’IA, afin d’en tirer le meilleur parti. Nous verrons également comment l’IA offre au veilleur/analyste généraliste de nouvelles perspectives en termes d’immersion dans des champs de connaissance qui lui étaient jusque-là inaccessibles.
Rappelons quand même que l’IA générative, même nourrie des meilleurs prompts et d’investissement personnel, reste un outil qui amplifie l’expertise humaine plutôt qu’un substitut à la réflexion critique et à l’expertise métier.
En 2022, nous avions déjà mené une première grande enquête sur les plateformes de veille. Elle avait fait l’objet d’un numéro spécial de la revue I2D.
Depuis cette date, le marché s’est transformé avec l’intégration de Digimind dans Onclusive (juillet 2022), les rachats successifs par Chapsvision, après celui de Bertin (AMI EI) en juin 2021, de QWAM (mars 2023) et Geotrend (juin 2023) et de plusieurs autres acteurs de l’OSINT, de la traduction ou de l’analyse de données, ou encore l’acquisition d’Iscope par KB Crawl en février 2024.
En parallèle, et depuis 2020, d’autres acteurs, plus petits et aux publics plus confidentiels, sont apparus sur le marché des éditeurs de veille, avec des solutions souvent boostées par l’intelligence artificielle. Le recours croissant aux technologies d’IA a considérablement accéléré la transformation des technologies de veille.
Il était donc devenu nécessaire d’actualiser notre enquête.
Mathieu Andro est Animateur du réseau de veille des Services du Premier ministre
Corinne Dupin est Consultante et formatrice au sein du cabinet Ourouk
En complément des analyses qui vont suivre, l’ensemble de nos données sont de nouveau accessibles sur notre site d’enquête.
Nous avons contacté pas moins de 70 éditeurs parmi ceux qui avaient déjà répondu à notre précédente enquête, mais aussi parmi ceux que nous avons identifiés entre-temps. Tous n’ont malheureusement pas fait le choix de répondre à nos sollicitations. Nous avons également obtenu des réponses d’éditeurs que nous n’avions pas sollicités et qui ont répondu spontanément et directement à une enquête complètement ouverte.
Le partage des informations recueillies par nos soins vise à faciliter le travail de consultation des organisations qui cherchent à se doter de technologies, mais aussi à dépasser les démarches en silos. Cette initiative a également été pensée pour le bénéfice des éditeurs qui seront peut-être moins surchargés de questions et pourront aussi s’inspirer parfois positivement de leurs concurrents. La sincérité de leurs réponses nous semble être renforcée par la transparence auprès de leurs clients comme de leurs concurrents.
Pour notre nouvelle enquête, nous avons d’ailleurs ajouté des vidéos d’entretiens avec les éditeurs. Elles permettent de mieux connaître leurs cultures d’entreprise, de mettre des visages sur des entrepreneurs, mais aussi de « lever le capot » de leurs outils et de se faire une idée plus concrète de l’ergonomie et du fonctionnement de leurs solutions au-delà de leur seules déclarations. Les éditeurs Cikisi, Esprits Collaboratifs (Curebot), IXXO, KB Crawl, maïplug, niiwaa, Sindup et Wabtch ont ainsi accepté de se prêter au jeu des échanges et démonstrations vidéo.
Les éditeurs de plateformes sont généralement francophones et s’adressent essentiellement au marché francophone. Au-delà d’un biais évident lié à l’origine géographique des auteurs de l’enquête, il est possible que le métier de veilleur et ses outils soient une spécificité francophone et que dans les pays anglo-saxons, la veille soit davantage une compétence métier partagée.
La plus grande société représentée (en termes d’effectif) est Chapsvision avec 1000 personnes. Elle est suivie par Talkwalker qui a déclaré 400 collaborateurs, Valona (anciennement M-Brain) avec plus de 200, Digimind avec 160 et Akio avec 60 personnes. L’autre côté de l’échiquier est investi par des développeurs informatiques, détenteurs de petites structures, qu’ils soient enseignants-chercheurs (niiwaa, maïplug) ou ex-chargé de veille et de l’innovation (Wabtch).
Tous ces acteurs ne jouent évidemment pas dans la même cour. Si l’ambition générale est celle d’automatiser le recueil d’information, les plateformes de veille intégrées s’adressent de façon préférentielle à de grands comptes, des industriels et des sociétés de service auxquels ils proposent une panoplie de fonctionnalités collaboratives et de modalités de diffusion (portail de lecture, alertes, newsletters…), tandis que les solutions plus modestes d’entrepreneurs (qu’ils désignent eux-mêmes comme de simples « outils de surveillance du web » ou « moteur de recherche de renseignement ») ciblent davantage des PME, des start-up, voire des veilleurs « isolés » moins fortunés et/ou pragmatiques, surtout désireux de perdre le moins de temps possible dans la capture et le traitement des informations.
Si le modèle de la plateforme « monolithique » proposant des fonctionnalités intégrées pour chaque étape du cycle de la veille est dominant, on observe toutefois que ChapsVision, Coexel, IXXO, KB Suite, Valona et Wabtch offrent la possibilité d’acquérir des modules séparés. Cela permet, par exemple, d’acquérir un module pour la collecte chez un éditeur, un autre module pour la curation chez un autre, possiblement encore un autre module pour la diffusion ou pour l’analyse. La modularité est appréciable lorsque l’entreprise - ou le veilleur - dispose déjà de son propre espace de diffusion (intranet, SharePoint ou CMS quelconque) - auquel cas elle ou il pourra ne se doter que de la seule « brique » de la surveillance.
À l’instar de notre dernière enquête, les sources juridiques restent celles qui sont les plus difficiles à surveiller automatiquement. Seuls Aleph Search, Curebot et KB Crawl ont déclaré une certaine expertise en la matière. Cette difficulté récurrente est probablement liée au modèle économique des éditeurs de sources juridiques, qui se fonde sur la rareté de l’information et les amène à se protéger des robots.
Le modèle économique des éditeurs scientifiques est diamétralement opposé. Fondé sur la recherche de la visibilité et de la citation (facteurs d’impact), il incite les éditeurs à faciliter le crawling ou la surveillance
automatique des publications par des flux RSS complets.
On observe également une spécialisation des types d’outils et une séparation des technologies de social listening et d’e-réputation, lesquelles s’adressent surtout aux acteurs de la communication. C’est le cas d’Akio Insights, Aleph Search, Digimind Social et Talkwalker.
La dichotomie entre veilles sur sources spécifiques et veilles radars par combinaison de mots clés sur de gros bouquets de sources est également en train de s’estomper, la plupart des éditeurs proposant désormais des bouquets de sources.
Les clubs utilisateurs existent chez 56,3 % des éditeurs et sont un moyen privilégié pour capter les besoins d’évolution de leurs solutions.
Les coûts d’acquisition oscillent entre 2 000 € et 200 000 € pour une moyenne de 16 000 € par an. Cela dit, comme il s’agit d’une moyenne sur seulement 6 éditeurs ayant répondu à cette question, elle ne nous semble pas très significative, d’autant que lors de notre dernière enquête, cette moyenne excédait les 40 000 € par an.
Figure 1 : Page d’accueil de notre site-panorama des solutions de veille
La surveillance de contenus audiovisuels, grâce aux technologies de speech to text, reste minoritaire. 4 répondants la proposent (Curebot, Digimind Social, KB Suite et Sindup).
L’écriture collaborative - à savoir la possibilité pour plusieurs personnes d’intervenir simultanément sur un même contenu - est encore plus rare puisque seuls 3 éditeurs l’ont implémentée (Curebot, Digimind Social et Valona). La collaboration entre veilleurs pour dépasser les silos institutionnels, les pratiques de veille collaborative pour effacer la division traditionnelle entre la cellule de veille productrice d’information et les consommateurs de ses contenus semblent encore loin d’être la règle dans les organisations.
La possibilité de veiller à partir d’une image de logo ou de visage n’est proposée que par Aleph Search et Talkwalker.
Pour la diffusion des veilles, 40 % des éditeurs déclarent avoir recours à un CMS comme :
Concernant l’intelligence artificielle, 43,8 % des éditeurs déclarent la proposer pour détecter de nouvelles sources par apprentissage sur les sources déjà surveillées. C’est le cas d’Akio Insights, Aleph Search, Cikisi, Mytwip (Coexel), Curebot, Digimind Social et niiwaa.
Les fonctionnalités de curation automatisée ou semi-automatisée par apprentissage qu’on appelle aussi machine learning- des contenus validés ou rejetés par les veilleurs sont proposées majoritairement par 56,3 % des éditeurs.
La production de résumés automatiques est déjà majoritaire à 68,8 %. La production de synthèses de plusieurs articles est proposée par la moitié des répondants.
En revanche, la capacité à détecter des contenus produits par de l’intelligence artificielle générative est très minoritaire puisque seule la plateforme Valona la propose. La détection des infox et fake news, de même que l’évaluation du niveau de fiabilité de l’information sont également peu répandues. Seuls Curebot, Digimind Social et la plateforme Valona proposent ce type de service.
L’analyse du sentiment est une technologie déjà largement éprouvée. Elle est proposée par Akio Insights, Curebot, Digimind Social, Market Intelligence ChapsVision, Valona et Talkwalker. Il en est de même pour les analyses sémantiques par data visualisation de corpus de veille ou text mining, qui sont proposées par 43,8 % des répondants. Les cartes géographiques sur les entités nommées sont proposées quant à elles par 68,8 % des répondants.
Outre les fonctionnalités attendues d’une solution de veille selon les contextes d’usage et les coûts d’acquisition et de fonctionnement, les éléments de différenciation entre les différentes propositions du marché relèvent principalement de l’expérience utilisateur : confort perçu d’utilisation, réduction maximale du bruit, accès rapide à l’information pertinente…
Les filtres proposés pour affiner les requêtes ou faciliter l’exploitation des résultats de la veille contribuent à une expérience qualitative et dynamique, promue notamment par les éditeurs Cikisi ou IXXO :
La datavisualisation concourt elle aussi à faciliter l’exploitation des contenus : outre l’extraction d’entités nommées et les nuages de mots, assez souvent proposés, la clusterisation ou regroupement de contenus par grandes catégories (Curebot, IXXO…) peut être un plus, tout comme une gamme d’histogrammes, graphiques en mosaïque, cartes comptant une ou plusieurs variables ; par exemple : pays mentionnés dans les contenus, montants de contrats… (Cikisi). La cartographie des co-occurrences peut aussi s’avérer précieuse (IXXO, Geotrend…).
Pour un outil comme niwaa, la datavisualisation n’intervient pas dans l’analyse, mais au moment de la détermination du contexte de recherche, réorienté de façon itérative au fil des propositions algorithmiques.
La personnalisation de la navigation dans la plateforme peut également constituer un motif de choix d’une solution : codes couleurs différents à des fins de repérage (Cikisi, Wabtch..), expérience de lecture dynamisée par les recommandations de son IA Mila vers d’autres « itinéraires de lecture » chez Cikisi…
Un autre facteur de différenciation est la possibilité offerte par certaines solutions de lancer une investigation à partir d’une feuille blanche, sans corpus de sources constitué au départ faute de maîtrise du sujet. IXXO propose ainsi d’explorer ce qui se dit sur le web sur le sujet en question via une douzaine de moteurs de recherche, d’identifier des sous-concepts par traitement statistique, puis d’initier une stratégie de recherche et la création d’agents intelligents venant alimenter un « data lake » c’est-à-dire un corpus de données non structurées, puisqu’il s’agit ici de favoriser la rapidité de constitution d’un corpus et d’imprégnation du sujet.
D’autres comme Curebot proposent, sur des sujets non maîtrisés, de lancer une recherche web en mode exploratoire dans différents moteurs (Google, Bing…), ou encore de lancer sur 1 à 3 mois une campagne de surveillance de milliers de sources via un data broker.
Certains outils font plus radicalement l’économie de l’étape du sourcing : c’est le cas notamment du moteur de veille multilingue niiwaa qui interroge des millions d’enregistrements (data lakes) et des bases de données externes, ouvertes ou fermées,, au moyen de termes de recherche, puis apprend des votes effectués en fonction de la pertinence des items remontés. niwaa et maïplug se passent ainsi également de l’élaboration d’une requête : car comment formuler ce que l’on ne sait pas encore nommer ?.... Le mode interactif d’orientation de la collecte au moyen de votes se veut alors à l’image du mode de fonctionnement du cerveau.
Figure 2 : Aperçu de quelques options de filtrage disponibles sur la plateforme
L’intelligence artificielle, déjà mobilisée par les éditeurs depuis quelques années, notamment pour la recommandation de contenus similaires, la traduction automatique des articles en langue étrangère au fil de la lecture et la génération automatique de résumés, est envisagée à présent sous sa forme générative. Le chatbot est le moyen d’interaction pour faciliter l’exploitation des corpus de veille, en permettant de requêter en langage naturel ou « converser » à partir des contenus validés. C’est l’orientation prise par des acteurs comme Curebot, Cikisi, KB Crawl, ou Sindup sur son portail de veille… Cette fonctionnalité nouvelle ouvre le champ de la veille à des consommateurs ponctuels qui viendront l’interroger pour des besoins informationnels précis plus circonscrits dans le temps, davantage que sur des sujets récurrents.
L’IA, de façon plus anecdotique, vient aussi en renfort du scraping chez KB Crawl en détectant les zones pertinentes à surveiller en fonction des habitudes de scraping du veilleur.
Le développement de l’apprentissage automatique dans les solutions de veille sonnera peut-être à terme le glas du requêtage et de la sélection de mots-clés, considérés par bon nombre de veilleurs - comme le concepteur de maïplug - comme lourds, imparfaits, restrictifs, limitants quand l’IA est, elle, en mesure d’embrasser un volume de mots-clés largement plus important et croissant.
Autant dire que dans la perspective de la disparition (programmée ?) du sourcing et du requêtage et du développement des capacités de détection, filtrage, reconnaissance, classification et recommandation des systèmes d’IA, le paysage des solutions de veille risque à plus ou moins long terme d’être drastiquement bouleversé, et avec lui les compétences attendues des veilleurs.