À chaque acteur son positionnement et donc son corpus
Chaque agrégateur de presse dispose tout d’abord d’un positionnement unique et par là même d’un corpus unique :
- Press’edd a par exemple un positionnement très axé presse papier et numérique sur le territoire français, ainsi que radio/télé française. Ils ont d’ailleurs depuis de nombreuses années la meilleure couverture de la presse française.
- Europresse a, quant à lui, plutôt misé sur le 360° avec des contenus presse, mais aussi médias sociaux, télé, radio, blogs, etc. à l’international. Il « ratisse » plus large, mais moins en profondeur sur chaque région.
- Nexis Newsdesk a, quant à lui, fait le pari de combiner agrégateur de presse et outil de veille et de social media monitoring. Les types de contenus sont donc très variés (presse, blogs, sites, podcasts, radio, télé, médias sociaux, etc.) et la couverture est internationale. Mais le revers de la médaille, c’est que l’outil mélange des contenus sous licence auxquels l’abonné peut accéder en intégralité et des contenus dont il surveille juste le flux RSS public ou dont il crawle la page d’accueil du site ; mais ces contenus peuvent s’avérer inaccessibles au client lorsqu‘ils sont derrière un paywall sauf s’il est déjà abonné par ailleurs à cette source.
- Enfin, Factiva reste sur un contenu essentiellement presse, sites d’actualités et blogs à l’international et mêle contenus sous licence négociés avec les éditeurs et sites web simplement crawlés.
De fait, les sources indexées sont différentes et les résultats obtenus le sont aussi.
Pour l’illustrer, nous avons testé une requête simple « sécurité routière »
dans le titre des articles sur tout le corpus au cours des trois derniers mois (résultats classés par date) sur Factiva, Nexis Newsdesk et Press’edd.
- D’une part le nombre de résultats diffère grandement de l’un à l’autre : 873 résultats sur Factiva, 1250 résultats sur Nexis Newsdesk, 1269 résultats sur Press’edd.
- D’autre part, quand on compare les résultats, on constate qu’il y a finalement assez peu de recoupements. Sur les vingt premiers résultats de chaque plateforme, il n’y avait par exemple que 6 à 9 articles en commun avec les plateformes concurrentes.
Des corpus mouvants qu’il faut surveiller
Les corpus des agrégateurs de presse payants ont connu une croissance exponentielle au cours des dernières années.
Europresse, par exemple, est passé de 6 500 sources en 2012 à plus de 57 000 aujourd’hui !
Mais si on y regarde de plus près, la tendance n’est pas aussi rectiligne. Il y a de nombreux ajouts de sources, certes, mais aussi un nombre non négligeable de retraits de sources. Les nombreuses sources ajoutées ne sont pas nécessairement des titres de presse, mais des sites Web, médias sociaux, etc. Et les contenus ne sont pas nécessairement disponibles en texte intégral, mais seule la partie publique du site est crawlée à la manière d’un outil de veille.
Nous avons donc voulu en savoir plus sur les évolutions des corpus des agrégateurs de presse.
Hélas, ces acteurs souhaitent pour la plupart rester discrets, car, quoi qu’ils en disent, il s’agit d’un sujet stratégique comme en témoigne cette anecdote.
Il y a quelques années, lorsque nous avions lancé la newsletter «Brèves de contenus» sur les ajouts et suppressions de sources des agrégateurs de presse, serveurs et bases de données, l’un des acteurs avait rapidement cessé de nous fournir ses données sur les sources. Et ce pour une raison très simple : il avait pu constater que l’un de ses concurrents directs utilisait ces données de manière peu discrète pour contacter tous les nouveaux éditeurs avec lesquels il venait de signer un contrat.
Nous nous sommes donc basés sur les données disponibles pour analyser les évolutions des corpus :
- Chez Factiva, les utilisateurs ont accès dans la rubrique « What’s new » à un fichier Excel mensuel indiquant l’ensemble des sources ajoutées, suspendues ou supprimées.
- Chez Europresse, il existe un répertoire de sources en ligne avec des informations sur chaque source (date d’ajout, retrait,, etc.) : https://nouveau.europresse.com/WebPages/Sources/SourceSearch.aspx
On constate tout d’abord que le nombre de sources suspendues ou supprimées chaque année n’est pas négligeable.
Sur Factiva par exemple, entre janvier et octobre 2019, on comptabilise 586 nouvelles sources, mais aussi 423 discontinuées (elles ne sont plus mises à jour, mais les archives demeurent interrogeables) et 56 supprimées.
Les raisons invoquées pour ces retraits sont multiples : fin du contrat avec l’éditeur, titre qui n’existe plus, rachat d’une source par un autre éditeur, source qui ne correspond plus à la ligne éditoriale de Factiva, source toujours sous contrat, mais qui ne met plus à jour ses données, etc. On ne semble cependant pas assister à un mouvement de retrait massif des éditeurs qui souhaiteraient moins de dépendance aux plateformes.
D’autre part, on remarque que les revues discontinuées sont toujours comptabilisées dans le corpus alors que seules les archives restent accessibles mais pas les contenus récents.
Sur Europresse par exemple, nous avons analysé les 100 premières sources listées (sur 814) pour les sources françaises proposées par l’annuaire de sources. Sur ces 100 résultats, 22 n’étaient plus mises à jour depuis des années. D’après nos recherches, il semblerait qu’il s’agisse essentiellement de sources qui ont cessé d’exister.
Le nombre de sources « actives » est donc moins élevé que le nombre global de sources annoncées.
Quant aux nouveaux ajouts de sources, il ne s’agit pas nécessairement de presse à proprement parler et l’accès au texte intégral n’est jamais garanti. Car rappelons-le, certains se transforment de plus en plus en crawlers de contenus dont ils ne négocient pas les droits.
Sur Europresse, sur les 100 premières sources françaises répertoriées, 24 ont été ajoutées en 2019 et il s’agit pratiquement uniquement de sites web d’entreprises ou d’associations (Accord Hôtel, Air Liquide, Airbus, Assemblée des Départements de France, etc.).
Sur Factiva, à peine la moitié des sources ajoutées au cours des six premiers mois de 2019 proposent leurs contenus sous licence à Factiva et donc chargent l’intégralité de leurs contenus (gratuits et payants) dans Factiva. Les autres sources sont soit des blogs, soit des sites web d’actualités crawlés. Et dans ce cas, les contenus payants ne sont pas accessibles.
Cette diversité des contenus est à double-tranchant. D’un côté, cela permet d’identifier des sources intéressantes auxquelles on va pouvoir s’abonner séparément si besoin. De l’autre, cela peut créer une frustration car les contenus identifiés ne sont pas nécessairement accessibles.
Aucun corpus clé-en-main ne peut répondre à tous les besoins
Même si les corpus des agrégateurs de presse sont très larges, leur couverture est plus ou moins bonne selon le secteur d’activité, la zone géographique concernée ou la question posée.
En règle générale, pour les agrégateurs internationaux, on retrouve bien la majorité des grands titres de presse nationaux de la plupart des pays du monde. On trouve également de la presse locale, professionnelle et spécialisée mais la couverture est plus variable et peut s’avérer très inégale d’un secteur d’activité à l’autre.
Quand l’agrégateur est spécialisé sur un pays en particulier comme Press’edd sur la France ou GBI Genios sur l’Allemagne par exemple, la presse locale est mieux représentée et on trouve également plus de presse spécialisée ou professionnelle.
Si on reprend notre exemple sur la sécurité routière
, la presse professionnelle et spécialisée est ici très importante.
On constate que la couverture proposée par les agrégateurs de presse payants sur les secteurs de l’automobile, transports, infrastructure, etc fournit déjà une bonne base. Les titres proposés varient considérablement d’un agrégateur à l’autre et s’avèrent finalement très complémentaires :
- Sur Pressedd, on trouve des titres comme le Journal Automobile, le journal du Poids Lourds, Pneumatique, Carosserie Magazine, etc.
- Sur Europresse, on trouve des titres comme Droit de la voirie, France Routes (site web uniquement), Public Roads, etc.
- Sur Factiva, on peut citer des titres comme Automotive News, Jurisprudence automobile, le moniteur de l’Automobile, etc.
- Sur Newsdesk, on peut citer Autoworld News, Roads and Bridges, Road Traffic Technology, etc.
D’autre part, nous avons ensuite réalisé un sourcing sur le web pour identifier des titres de presse de référence sur la thématique de la sécurité routière en France et à l’international.
Parmi les titres spécialisés intéressants, nous avons identifié des sources comme World Highways, Routes/Roads Magazine, ITS International, RGRA (Éditeur de référence des infrastructures pour la mobilité), Route Actualités, Intelligent Transport, etc.
Sur ces six titres, Factiva et Europresse n’en indexe aucun. Press’edd dispose de Route Actualités. Nexis Newsdesk indexe le site web de World Highways et d’Intelligent Transport mais ne donne pas accès au contenu derrière un paywall.
Le risque des fonctionnalités de recherche expertes sur des contenus disparates
Les fonctionnalités de recherche proposées par les agrégateurs de presse payants permettent aujourd’hui encore de créer des requêtes complexes et expertes, ce qu’il est impossible de faire sur les agrégateurs gratuits. Et c’est aujourd’hui encore une de leur grande force.
Même si les interfaces sont en apparence souvent simplifiées, la majorité des fonctionnalités de recherche expertes (booléens, opérateurs de proximité, recherche sur l’indexation, etc.) sont encore bien présentes.
Ces fonctionnalités continuent d’ailleurs d’évoluer et de s’enrichir de temps à autre. Factiva a par exemple annoncé récemment le lancement de Factiva Labs, un espace où les utilisateurs peuvent tester les nouvelles fonctionnalités en développement et donner leur avis. Parmi les premières fonctionnalités à tester, on trouve notamment un système de recommandation automatique d’articles.
Mais attention tout de même. A l’heure où les agrégateurs de presse payants indexent des contenus de plus en plus disparates, il faut être vigilant sur la construction de ses stratégies de recherche. On ne peut pas rechercher de la même manière sur un article de presse et sur un tweet de 280 caractères maximum ni de la même manière sur des contenus de presse print et des contenus de presse Web.
A titre d’exemple une longue stratégie de recherche complexe ne générera aucun résultat sur des contenus médias sociaux qui sont par nature brefs, mais pourra très bien fonctionner pour la presse. A l’inverse, une requête plus basique pourra fournir des résultats pertinents dans les médias sociaux et générera beaucoup trop de bruit pour la presse.
Sur ce sujet, nous vous conseillons la lecture de notre article « Presse, réseaux sociaux, contenus multimédias, littérature scientifique, données ... : rechercher sur des contenus très disparates » (NETSOURCES - N°139 MARS/AVRIL 2019).
Les agrégateurs de presse payants ne sont qu’une pièce du puzzle
Les agrégateurs de presse payants ont toujours une valeur pour la recherche d’information professionnelle en 2020 et restent incontournables. Mais ils ont aussi leurs limites et il faut bien en avoir conscience.
Ils permettent :
- de bien débuter une recherche en interrogeant un corpus large sur un sujet ;
- de répondre à des besoins d’information complexes grâce à leurs fonctionnalités de recherche ; mais à condition de segmenter les différents types de contenus proposés (presse, blog, médias sociaux) et d’adapter ses stratégies de recherche en fonction ;
- de faire un tour d’horizon des grands titres de presse nationale au niveau mondial ;
- de surveiller la réputation d’une marque ou entreprise ;
En revanche,
- ils ne sont pas suffisants dans le cadre de recherches d’information sectorielle ou de recherches nécessitant des titres de presse très spécialisée ;
- ils ne donnent plus nécessairement accès à tous les contenus qu’ils indexent. Tout dépend s’il s’agit de contenus sous licence ou de simple crawls de sites.
Si pour certains types de besoins informationnels, leur seule utilisation peut suffire, en revanche, pour d’autres notamment liés à l’information sectorielle ou très spécialisée, ils ne représentent qu’une partie du puzzle des outils utiles pour la recherche d’information presse. Il faut alors inclure les agrégateurs gratuits, qui, même s’ils se dégradent, peuvent fournir des sources complémentaires.
Et surtout, il faut aussi impérativement créer ses propres outils de recherche presse. Ce que l’on pourra faire en identifiant les meilleures sources presse notamment sectorielle et spécialisée sur un sujet et en créant des moteurs personnalisés comme Google CSE ou en détournant l’usage des lecteurs de flux RSS pour en faire des agrégateurs de presse personnalisés.