L’open data des entreprises : une mine d’or souterraine

Carole Tisserand-Barthole
Bases no
389
publié en
2021.02
1333
Acheter ce no
Tags
évaluation outils | méthodologie | open data
L’open data des entreprises : une mine d’or souterraine Image 1

Il y a quelques semaines, EDF annonçait le lancement de sa plateforme open data (opendata.edf.fr), une bonne nouvelle pour les professionnels de l’information susceptibles de rechercher des informations dans le secteur de l’énergie.

Mais au-delà de l’annonce d’EDF en tant que telle, ce qui est intéressant, c’est que cette nouvelle plateforme est initiée par une entreprise alors qu’on est plus habitué à entendre parler d’open data dans le secteur public. On l’oublierait presque mais les entreprises, elles aussi, peuvent lancer leurs plateformes d’open data et mettre en ligne certains jeux de données, même si on est très loin d’une ouverture des données à très grande échelle.

Lorsque l’on fait de la veille ou des recherches d’information, il ne faut donc pas négliger ces sources d’information qui peuvent détenir des informations précieuses. Pour autant, ces plateformes et données ne sont pas toujours très visibles et il est simple de passer à côté. Comment éviter que cela arrive et comment faire pour bien rechercher ces données ?

La place de l’open data pour la veille et de recherche d’information

Tout d’abord, rappelons que l’open data, ce sont des données numériques (textuelles ou non textuelles comme des cartes, des formules chimiques, des statistiques, etc.) produites par des organismes publics mais également privés qui sont rendues librement accessibles et réutilisables sans condition par tout un chacun.

L’open data représente un réel intérêt pour les professionnels de l’information en matière de sources car cela permet notamment d’accéder à des informations auxquelles on ne pouvait pas accéder par le passé ou très difficilement.

Dans le cas des entreprises, il s’agit néanmoins rarement de données que l’on ne pourrait pas trouver ailleurs mais plutôt de données qui peuvent être difficiles d’accès ou bien dispersées à plusieurs endroits sur le web.

Des contenus difficilement « recherchables »

La première difficulté avec les données publiques, c’est qu’il s’agit de données brutes et que, dans la grande majorité des cas, on ne recherche que sur les métadonnées des jeux de données (datasets) et non sur les données elles-mêmes.

Dans le cas de la plateforme EDF par exemple, l’un des jeux de données disponible est un organigramme du groupe EDF. Quand on effectue une recherche sur une des entités du groupe EDF, il serait pertinent de disposer de cet organigramme dans ses résultats. Or il n’en est rien...

Nous avons fait le test sur l’entité Domofinance qui se trouve bien dans l’organigramme d’EDF.

Dans le moteur de recherche de la plateforme Open Data EDF, cela ne ramène aucun résultat car on ne recherche que sur les métadonnées, en l’occurrence le titre, le descriptif et les éventuels tags.
Sur Google, la recherche Domofinance organigramme ne fera ressortir aucun résultat issu de la plateforme EDF. En revanche, on trouvera bien un organigramme d’EDF mentionnant Domofinance en PDF présent sur le site institutionnel d’EDF ainsi qu’une plateforme d’open data appelée Open Data Soft qui a repris le jeu de données en l’affichant textuellement. Dans les deux cas, l’organigramme a été indexé textuellement par Google, le rendant ainsi plus facilement « recherchable ».

Open data EDF

Interface de la plateforme open data d’EDF

Pour rechercher des données publiques, il ne faut donc pas rechercher l’information finale mais réfléchir aux organismes susceptibles de proposer des données publiques. 
Il faut également avoir conscience que les outils de recherche proposés par ces plateformes peuvent être très simplistes avec des fonctionnalités de recherche basiques et des filtres quasi-inexistants. Ce n’est pas un problème lorsque la plateforme ne contient que quelques jeux de données mais c’est beaucoup plus problématique quand les datasets sont nombreux.

Il est parfois plus efficace de passer par Google pour repérer des données publiques.

Des données pas toujours bien référencées par les outils classiques 

Même si les données publiques que l’on recherche existent, elles n’apparaissent pas nécessairement dans les outils de recherche classiques qu’il s’agisse de moteurs de recherche web ou de bases de données professionnelles.

Si on reprend l’exemple de la plateforme EDF, nous avons mené quelques tests en recherchant sur différents outils de recherche classiques le nom d’un des jeux données présent sur la plateforme, en l’occurrence « Données historiques de débits moyens journaliers en rivière EDF Hydro » qui a été publié le 1er décembre 2020.

Sur Google, malgré le titre exact du jeu de donnée, la plateforme open data d’EDF n’apparaît à aucun moment dans les 135 résultats proposés par Google.

Le constat est le même sur Bing.

Une recherche sur la plateforme data.gouv.fr, la plateforme des données publiques françaises qui recense pourtant certains jeux de données publiés par des entreprises ne donne rien non plus. Il y a bien quelques jeux de données en provenance d’EDF mais il s’agit d’EDF Systèmes énergétiques Insulaires et les jeux de données n’ont rien à voir avec ceux d’opendata.edf.fr.

Et même la plateforme « Open Data Réseaux Énergies » (ODRÉ) qui est une plateforme open data de mise à disposition de données multi-énergies, multi-opérateurs et multi-territoires spécialisée sur le secteur de l’énergie ne dispose pas de ce jeux de données (EDF ne semble pas en faire partie).

Finalement, seul le moteur Google datasets (pourtant encore très imparfait), spécialisé sur les données publiques et les données de la recherche référençait ce jeu de données.

On voit bien que, même si les données existent, elles ne sont pas pour autant facilement identifiables et nécessitent une démarche spécifique.

Conseil : mener une recherche à part sur les données publiques

Quand on fait une recherche d’infor­mation, il convient d’adopter une démarche spécifique pour l’open data en règle générale mais encore plus pour l’open data d’entreprise.

  1. On commence par se demander en amont si les données publiques pourraient, en partie, répondre à la question posée.
  2. Si c’est le cas, on réfléchira aux organismes et entreprises susceptibles de détenir les données que l’on recherche.
  3. On vérifiera ensuite si ces organisations proposent des données publiques soit via leur propre plateforme dédiée soit via d’autres plateformes open data (comme data.gouv.fr par exemple). En général, les entreprises qui se mettent à l’open data communiquent sur le sujet pour bien mettre en avant leur côté « innovant ».
  4. Enfin, on explorera les jeux de données disponibles sur la ou les plateformes identifiées ou on lancera des recherches dans le moteur en ayant bien conscience que la recherche portera très probablement uniquement sur les métadonnées.