Des contenus difficilement « recherchables »
La première difficulté avec les données publiques, c’est qu’il s’agit de données brutes et que, dans la grande majorité des cas, on ne recherche que sur les métadonnées des jeux de données (datasets) et non sur les données elles-mêmes.
Dans le cas de la plateforme EDF par exemple, l’un des jeux de données disponible est un organigramme du groupe EDF. Quand on effectue une recherche sur une des entités du groupe EDF, il serait pertinent de disposer de cet organigramme dans ses résultats. Or il n’en est rien...
Nous avons fait le test sur l’entité Domofinance qui se trouve bien dans l’organigramme d’EDF.
Dans le moteur de recherche de la plateforme Open Data EDF, cela ne ramène aucun résultat car on ne recherche que sur les métadonnées, en l’occurrence le titre, le descriptif et les éventuels tags.
Sur Google, la rechercheDomofinance organigramme
ne fera ressortir aucun résultat issu de la plateforme EDF. En revanche, on trouvera bien un organigramme d’EDF mentionnant Domofinance en PDF présent sur le site institutionnel d’EDF ainsi qu’une plateforme d’open data appelée Open Data Soft qui a repris le jeu de données en l’affichant textuellement. Dans les deux cas, l’organigramme a été indexé textuellement par Google, le rendant ainsi plus facilement « recherchable ».
Interface de la plateforme open data d’EDF
Pour rechercher des données publiques, il ne faut donc pas rechercher l’information finale mais réfléchir aux organismes susceptibles de proposer des données publiques.
Il faut également avoir conscience que les outils de recherche proposés par ces plateformes peuvent être très simplistes avec des fonctionnalités de recherche basiques et des filtres quasi-inexistants. Ce n’est pas un problème lorsque la plateforme ne contient que quelques jeux de données mais c’est beaucoup plus problématique quand les datasets sont nombreux.
Il est parfois plus efficace de passer par Google pour repérer des données publiques.
Des données pas toujours bien référencées par les outils classiques
Même si les données publiques que l’on recherche existent, elles n’apparaissent pas nécessairement dans les outils de recherche classiques qu’il s’agisse de moteurs de recherche web ou de bases de données professionnelles.
Si on reprend l’exemple de la plateforme EDF, nous avons mené quelques tests en recherchant sur différents outils de recherche classiques le nom d’un des jeux données présent sur la plateforme, en l’occurrence « Données historiques de débits moyens journaliers en rivière EDF Hydro » qui a été publié le 1er décembre 2020.
Sur Google, malgré le titre exact du jeu de donnée, la plateforme open data d’EDF n’apparaît à aucun moment dans les 135 résultats proposés par Google.
Le constat est le même sur Bing.
Une recherche sur la plateforme data.gouv.fr, la plateforme des données publiques françaises qui recense pourtant certains jeux de données publiés par des entreprises ne donne rien non plus. Il y a bien quelques jeux de données en provenance d’EDF mais il s’agit d’EDF Systèmes énergétiques Insulaires et les jeux de données n’ont rien à voir avec ceux d’opendata.edf.fr.
Et même la plateforme « Open Data Réseaux Énergies » (ODRÉ) qui est une plateforme open data de mise à disposition de données multi-énergies, multi-opérateurs et multi-territoires spécialisée sur le secteur de l’énergie ne dispose pas de ce jeux de données (EDF ne semble pas en faire partie).
Finalement, seul le moteur Google datasets (pourtant encore très imparfait), spécialisé sur les données publiques et les données de la recherche référençait ce jeu de données.
On voit bien que, même si les données existent, elles ne sont pas pour autant facilement identifiables et nécessitent une démarche spécifique.
Conseil : mener une recherche à part sur les données publiques
Quand on fait une recherche d’information, il convient d’adopter une démarche spécifique pour l’open data en règle générale mais encore plus pour l’open data d’entreprise.
- On commence par se demander en amont si les données publiques pourraient, en partie, répondre à la question posée.
- Si c’est le cas, on réfléchira aux organismes et entreprises susceptibles de détenir les données que l’on recherche.
- On vérifiera ensuite si ces organisations proposent des données publiques soit via leur propre plateforme dédiée soit via d’autres plateformes open data (comme data.gouv.fr par exemple). En général, les entreprises qui se mettent à l’open data communiquent sur le sujet pour bien mettre en avant leur côté « innovant ».
- Enfin, on explorera les jeux de données disponibles sur la ou les plateformes identifiées ou on lancera des recherches dans le moteur en ayant bien conscience que la recherche portera très probablement uniquement sur les métadonnées.