Les agrégateurs de presse payants ont-ils toujours de la valeur ? Dossier spécial Agrégateurs de presse

Carole Tisserand-Barthole
Bases no
377
publié en
2020.01
1778
Acheter ce no
Tags
Newsdesk | Pressedd | presse en ligne | agrégateurs de presse
Les agrégateurs de presse payants ont-ils toujours de la ... Image 1

Face à la dégradation de Google Actualités et à l’absence d’alternatives réelles en matière d’agrégateurs de presse gratuits, on pourrait être tenté de considérer que seuls les agrégateurs de presse payants peuvent permettre de réaliser de bonnes recherches d’information sur la presse.

Sur le papier, leurs corpus de sources continuent de s’enrichir et se diversifier avec les années et les fonctionnalités de recherche expertes restent présentes tandis que de nouvelles se développent.

Les agrégateurs de presse payants sont-ils aujourd’hui la seule solution pour réaliser des recherches d’infor­mation de qualité ? Ou bien à l’image des agrégateurs de presse gratuits, eux aussi seraient-ils en réalité sur une pente descendante ?

Et si la solution pour la recherche dans la presse se trouvait ailleurs ?

Lire aussi :

Google Actualités : la tendance n’est pas au beau fixe
Quelles alternatives crédibles à Google Actualités en 2020 ?
Presse, réseaux sociaux, contenus multimédias, littérature scientifique, données ... : rechercher sur des contenus très disparates

L’argument commercial du plus gros corpus : un mirage ?

Tous les acteurs sur le marché vantent aujourd’hui la taille de leur corpus de sources et vendent l’idée d’un accès centralisé à la presse française et/ou internationale.

Ils ont fait grossir leur corpus de manière exponentielle en quelques années et mettent en avant la veille à 360° avec l’intégration de contenus hors presse papier et numérique tels que la radio, la télévision, les blogs ou encore les médias sociaux.

À les croire, toutes les sources utiles pour une recherche d’information ou une veille se trouveraient donc dans leurs plateformes.

Pas si sûr...

À chaque acteur son positionnement et donc son corpus

Chaque agrégateur de presse dispose tout d’abord d’un positionnement unique et par là même d’un corpus unique :

  • Press’edd a par exemple un positionnement très axé presse papier et numérique sur le territoire français, ainsi que radio/télé française. Ils ont d’ailleurs depuis de nombreuses années la meilleure couverture de la presse française.
  • Europresse a, quant à lui, plutôt misé sur le 360° avec des contenus presse, mais aussi médias sociaux, télé, radio, blogs, etc. à l’international. Il « ratisse » plus large, mais moins en profondeur sur chaque région.
  • Nexis Newsdesk a, quant à lui, fait le pari de combiner agrégateur de presse et outil de veille et de social media monitoring. Les types de contenus sont donc très variés (presse, blogs, sites, podcasts, radio, télé, médias sociaux, etc.) et la couverture est internationale. Mais le revers de la médaille, c’est que l’outil mélange des contenus sous licence auxquels l’abonné peut accéder en intégralité et des contenus dont il surveille juste le flux RSS public ou dont il crawle la page d’accueil du site  ; mais ces contenus peuvent s’avérer inaccessibles au client lorsqu‘ils sont derrière un paywall sauf s’il est déjà abonné par ailleurs à cette source.
  • Enfin, Factiva reste sur un contenu essentiellement presse, sites d’actualités et blogs à l’international et mêle contenus sous licence négociés avec les éditeurs et sites web simplement crawlés.

De fait, les sources indexées sont différentes et les résultats obtenus le sont aussi.

Pour l’illustrer, nous avons testé une requête simple « sécurité routière » dans le titre des articles sur tout le corpus au cours des trois derniers mois (résultats classés par date) sur Factiva, Nexis Newsdesk et Press’edd.

  • D’une part le nombre de résultats diffère grandement de l’un à l’autre : 873 résultats sur Factiva, 1250 résultats sur Nexis Newsdesk, 1269 résultats sur Press’edd.
  • D’autre part, quand on compare les résultats, on constate qu’il y a finalement assez peu de recou­pements. Sur les vingt premiers résultats de chaque plateforme, il n’y avait par exemple que 6 à 9 articles en commun avec les plateformes concurrentes.

Des corpus mouvants qu’il faut surveiller

Les corpus des agrégateurs de presse payants ont connu une croissance exponentielle au cours des dernières années.

Europresse, par exemple, est passé de 6 500 sources en 2012 à plus de 57 000 aujourd’hui !

Mais si on y regarde de plus près, la tendance n’est pas aussi rectiligne. Il y a de nombreux ajouts de sources, certes, mais aussi un nombre non négligeable de retraits de sources. Les nombreuses sources ajoutées ne sont pas nécessairement des titres de presse, mais des sites Web, médias sociaux, etc. Et les contenus ne sont pas nécessairement disponibles en texte intégral, mais seule la partie publique du site est crawlée à la manière d’un outil de veille.

Nous avons donc voulu en savoir plus sur les évolutions des corpus des agrégateurs de presse.

Hélas, ces acteurs souhaitent pour la plupart rester discrets, car, quoi qu’ils en disent, il s’agit d’un sujet stratégique comme en témoigne cette anecdote.

Il y a quelques années, lorsque nous avions lancé la newsletter «Brèves de contenus» sur les ajouts et suppressions de sources des agrégateurs de presse, serveurs et bases de données, l’un des acteurs avait rapidement cessé de nous fournir ses données sur les sources. Et ce pour une raison très simple : il avait pu constater que l’un de ses concurrents directs utilisait ces données de manière peu discrète pour contacter tous les nouveaux éditeurs avec lesquels il venait de signer un contrat.

Nous nous sommes donc basés sur les données disponibles pour analyser les évolutions des corpus :

  • Chez Factiva, les utilisateurs ont accès dans la rubrique « What’s new » à un fichier Excel mensuel indiquant l’ensemble des sources ajoutées, suspendues ou supprimées.
  • Chez Europresse, il existe un répertoire de sources en ligne avec des informations sur chaque source (date d’ajout, retrait,, etc.) : https://nouveau.europresse.com/WebPages/Sources/SourceSearch.aspx

On constate tout d’abord que le nombre de sources suspendues ou supprimées chaque année n’est pas négligeable.

Sur Factiva par exemple, entre janvier et octobre 2019, on comptabilise 586 nouvelles sources, mais aussi 423 discontinuées (elles ne sont plus mises à jour, mais les archives demeurent interrogeables) et 56 supprimées.

Les raisons invoquées pour ces retraits sont multiples : fin du contrat avec l’éditeur, titre qui n’existe plus, rachat d’une source par un autre éditeur, source qui ne correspond plus à la ligne éditoriale de Factiva, source toujours sous contrat, mais qui ne met plus à jour ses données, etc. On ne semble cependant pas assister à un mouvement de retrait massif des éditeurs qui souhaiteraient moins de dépendance aux plateformes.

D’autre part, on remarque que les revues discontinuées sont toujours comptabilisées dans le corpus alors que seules les archives restent accessibles mais pas les contenus récents.

Sur Europresse par exemple, nous avons analysé les 100 premières sources listées (sur 814) pour les sources françaises proposées par l’annuaire de sources. Sur ces 100 résultats, 22 n’étaient plus mises à jour depuis des années. D’après nos recherches, il semblerait qu’il s’agisse essentiellement de sources qui ont cessé d’exister.

Le nombre de sources « actives » est donc moins élevé que le nombre global de sources annoncées.

Quant aux nouveaux ajouts de sources, il ne s’agit pas nécessairement de presse à proprement parler et l’accès au texte intégral n’est jamais garanti. Car rappelons-le, certains se transforment de plus en plus en crawlers de contenus dont ils ne négocient pas les droits.

Sur Europresse, sur les 100 premières sources françaises répertoriées, 24 ont été ajoutées en 2019 et il s’agit pratiquement uniquement de sites web d’entreprises ou d’associations (Accord Hôtel, Air Liquide, Airbus, Assemblée des Départements de France, etc.).

Sur Factiva, à peine la moitié des sources ajoutées au cours des six premiers mois de 2019 proposent leurs contenus sous licence à Factiva et donc chargent l’intégralité de leurs contenus (gratuits et payants) dans Factiva. Les autres sources sont soit des blogs, soit des sites web d’actualités crawlés. Et dans ce cas, les contenus payants ne sont pas accessibles.

Cette diversité des contenus est à double-tranchant. D’un côté, cela permet d’identifier des sources intér­essantes auxquelles on va pouvoir s’abonner séparément si besoin. De l’autre, cela peut créer une frustration car les contenus identifiés ne sont pas nécessairement accessibles.

Aucun corpus clé-en-main ne peut répondre à tous les besoins

Même si les corpus des agrégateurs de presse sont très larges, leur couverture est plus ou moins bonne selon le secteur d’activité, la zone géographique concernée ou la question posée.

En règle générale, pour les agrégateurs internationaux, on retrouve bien la majorité des grands titres de presse nationaux de la plupart des pays du monde. On trouve également de la presse locale, professionnelle et spécialisée mais la couverture est plus variable et peut s’avérer très inégale d’un secteur d’activité à l’autre.

Quand l’agrégateur est spécialisé sur un pays en particulier comme Press’edd sur la France ou GBI Genios sur l’Allemagne par exemple, la presse locale est mieux représentée et on trouve également plus de presse spécialisée ou professionnelle.

Si on reprend notre exemple sur la sécurité routière, la presse pro­fessionnelle et spécialisée est ici très importante.

On constate que la couverture proposée par les agrégateurs de presse payants sur les secteurs de l’automobile, transports, infrastructure, etc fournit déjà une bonne base. Les titres proposés varient considérablement d’un agrégateur à l’autre et s’avèrent finalement très complémentaires :

  • Sur Pressedd, on trouve des titres comme le Journal Automo­bile, le journal du Poids Lourds, Pneuma­tique, Carosserie Magazine, etc.
  • Sur Europresse, on trouve des titres comme Droit de la voirie, France Routes (site web uniquement), Public Roads, etc.
  • Sur Factiva, on peut citer des titres comme Automotive News, Jurisprudence automobile, le moniteur de l’Automobile, etc.
  • Sur Newsdesk, on peut citer Auto­world News, Roads and Bridges, Road Traffic Technology, etc.

D’autre part, nous avons ensuite réalisé un sourcing sur le web pour identifier des titres de presse de référence sur la thématique de la sécurité routière en France et à l’international.

Parmi les titres spécialisés intéres­sants, nous avons identifié des sour­ces comme World Highways, Routes/Roads Magazine, ITS International, RGRA (Éditeur de référence des infra­structures pour la mobilité), Route Actualités, Intelligent Transport, etc.

Sur ces six titres, Factiva et Europresse n’en indexe aucun. Press’edd dispose de Route Actualités. Nexis Newsdesk indexe le site web de World Highways et d’Intelligent Transport mais ne donne pas accès au contenu derrière un paywall.

Le risque des fonctionnalités de recherche expertes sur des contenus disparates

Les fonctionnalités de recherche propo­sées par les agrégateurs de presse payants permettent aujourd’hui encore de créer des requêtes complexes et expertes, ce qu’il est impossible de faire sur les agrégateurs gratuits. Et c’est aujourd’hui encore une de leur grande force.

Même si les interfaces sont en apparence souvent simplifiées, la majorité des fonctionnalités de recherche expertes (booléens, opérateurs de proximité, recherche sur l’indexation, etc.) sont encore bien présentes.

Ces fonctionnalités continuent d’ailleurs d’évoluer et de s’enrichir de temps à autre. Factiva a par exemple annoncé récemment le lancement de Factiva Labs, un espace où les utilisateurs peuvent tester les nouvelles fonctionnalités en développement et donner leur avis. Parmi les premières fonctionnalités à tester, on trouve notamment un système de recommandation automatique d’articles.

Mais attention tout de même. A l’heure où les agrégateurs de presse payants indexent des contenus de plus en plus disparates, il faut être vigilant sur la construction de ses stratégies de recherche. On ne peut pas rechercher de la même manière sur un article de presse et sur un tweet de 280 caractères maximum ni de la même manière sur des contenus de presse print et des contenus de presse Web.

A titre d’exemple une longue stratégie de recherche complexe ne générera aucun résultat sur des contenus médias sociaux qui sont par nature brefs, mais pourra très bien fonctionner pour la presse. A l’inverse, une requête plus basique pourra fournir des résultats pertinents dans les médias sociaux et générera beaucoup trop de bruit pour la presse.

Sur ce sujet, nous vous conseillons la lecture de notre article « Presse, réseaux sociaux, contenus multimédias, littérature scientifique, données ... : rechercher sur des contenus très disparates » (NETSOURCES - N°139 MARS/AVRIL 2019).

Les agrégateurs de presse payants ne sont qu’une pièce du puzzle

Les agrégateurs de presse payants ont toujours une valeur pour la recherche d’information professionnelle en 2020 et restent incontournables. Mais ils ont aussi leurs limites et il faut bien en avoir conscience.

Ils permettent :

  • de bien débuter une recherche en interrogeant un corpus large sur un sujet ;
  • de répondre à des besoins d’information complexes grâce à leurs fonctionnalités de recherche ; mais à condition de segmenter les différents types de contenus proposés (presse, blog, médias sociaux) et d’adapter ses stratégies de recherche en fonction ;
  • de faire un tour d’horizon des grands titres de presse nationale au niveau mondial ;
  • de surveiller la réputation d’une marque ou entreprise ;

En revanche,

  • ils ne sont pas suffisants dans le cadre de recherches d’information sectorielle ou de recherches nécessitant des titres de presse très spécialisée ;
  • ils ne donnent plus nécessairement accès à tous les contenus qu’ils indexent. Tout dépend s’il s’agit de contenus sous licence ou de simple crawls de sites.

Si pour certains types de besoins informa­tionnels, leur seule utilisation peut suffire, en revanche, pour d’autres notamment liés à l’information sectorielle ou très spécialisée, ils ne représentent qu’une partie du puzzle des outils utiles pour la recherche d’information presse. Il faut alors inclure les agrégateurs gratuits, qui, même s’ils se dégradent, peuvent fournir des sources complémentaires.

Et surtout, il faut aussi impérativement créer ses propres outils de recherche presse. Ce que l’on pourra faire en identifiant les meilleures sources presse notamment sectorielle et spécialisée sur un sujet et en créant des moteurs personnalisés comme Google CSE ou en détournant l’usage des lecteurs de flux RSS pour en faire des agrégateurs de presse personnalisés.