Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.
Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.
Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?
Lire aussi dans ce dossier :
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Si pendant longtemps, la recherche d’information se basait essentiellement sur des contenus textuels comme les articles de presse, articles scientifiques, brevets, rapports, études, pages Web textuelles, etc., les choses évoluent rapidement.
L’image, la vidéo ou encore le son prennent une place de plus en plus importante avec notamment l’essor de la recherche visuelle, vocale, la reconnaissance de logos ou de texte dans les images. On parle de plus en plus d’un univers « post-texte ».
Au-delà du développement de ces contenus multimédias, on assiste également à un autre mouvement intéressant : un intérêt et une valorisation croissante pour les données en tant que telles, comme les données publiques et les données de la recherche scientifique et académique.
Elles s’extraient progressivement de leurs supports traditionnels comme les articles scientifiques, les rapports, les études et autres publications pour devenir des objets et informations à part entière qui sont partagés librement sur le Web et donc deviennent potentiellement « recherchables ».
Et ces changements impactent bien évidemment les professionnels de l’information qui doivent adapter leur façon de rechercher et intégrer de nouvelles sources et contenus.
Déjà abonné ? Connectez-vous...
Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Il est vrai que la recherche de données est aujourd’hui un challenge.
Les données et datasets sont aujourd’hui nombreux sur le web ouvert mais très fragmentés, et les identifier relève parfois du parcours du combattant...
La première difficulté réside dans l’hétérogénéité des datasets. Si les données sont partagées et mises en ligne librement, elles ne sont pas pour autant bien décrites par des métadonnées et les mots-clés qui leur sont associés ne sont pas nécessairement les meilleurs ni les plus adaptés. De fait, ces datasets sont donc difficilement identifiables. De plus, les différents acteurs n’utilisent pas tous les mêmes référentiels de métadonnées et on se retrouve face à une très grande variété de datasets et de métadonnées.
D’autre part, elles sont peu visibles dans les résultats des moteurs de recherche traditionnels et mal indexées. En effet, dans le cas des datasets, la recherche s’effectue généralement sur les métadonnées1 uniquement et non sur du texte intégral ou les données elles-mêmes, comme c’est le cas sur des articles ou des pages web. On a donc intérêt à ce qu’elles soient bien décrites.
Enfin, même s’il existe une multitude d’initiatives, plateformes, entrepôts de données, outils de recherche dédiés, etc., ils restent peu visibles et peu harmonisés.
Avec Google Dataset Search, Google vient donc se positionner sur un créneau où il y a un réel besoin. Est-il le plus légitime pour le faire ? Son outil répond-il vraiment aux besoins et problématiques d’une recherche d’information professionnelle ? C’est ce que nous verrons dans la suite de cet article.
Déjà abonné ? Connectez-vous...
Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
On pourra retrouver la définition de « données de la recherche » dans le premier article de ce numéro de BASES (Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?)
On rappellera qu’il peut s’agir aussi bien de fichiers excel, d’images, de morceaux de codes, de texte, de documents, de vidéos, de visualisations graphiques, de données géographiques, audio, etc. Cela concerne toutes les disciplines qu’il s’agisse des sciences humaines et sociales ou sciences dures.
Et ces données peuvent avoir une très grande valeur dans un contexte de veille et de recherche d’information.
Avant de se plonger dans les sources et méthodes, il convient de se familiariser avec cet univers pour mieux le comprendre et bien y effectuer des recherches.
Les données de la recherche que l’on retrouve sur le web s’inscrivent dans le mouvement de l’open science/ science ouverte qui vise à rendre la recherche scientifique et ses données accessibles à tous.
Les jeux de données sont généralement hébergés dans des entrepôts de données (repositories). On peut voir également apparaître des termes comme research data repositories, research data initiatives, data repositories, digital data repositories.
On notera que les termes anglais sont beaucoup plus utilisés que les termes français même dans un environnement francophone.
On constate qu’il existe une multitude d’entrepôts, probablement des milliers, certains pluridisciplinaires et d’autres très spécialisés, qu’il serait bien évidemment impossible de lister dans leur intégralité ici.
Nous avons donc choisi de présenter les grandes sources (annuaires, moteurs) permettant de les identifier ainsi que des méthodes pour les identifier sur le Web.
Ces jeux de données sont souvent dotés de DOI (Digital Object identifier) ou autre identifiant numérique (à l’image des articles scientifiques) qui permettent de les identifier et de les retrouver de manière pérenne.
Les jeux de données peuvent être reliés aux articles scientifiques pour lesquels ils ont été créés et sont donc identifiables via l’article en question ou bien ils peuvent exister indépendamment et être recherchés via des moteurs de recherche (web, moteur interne des entrepôts, etc.).
En termes de fonctionnalités, on peut généralement rechercher sur les métadonnées associées à ces jeux de données mais très rarement sur les données elles-mêmes, ce qui est un élément crucial à prendre en compte. On ne recherche pas sur des métadonnées comme on recherche sur du fulltext ou plutôt pourrait-on dire sur du « fulldata ».
Déjà abonné ? Connectez-vous...
Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).
Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
L’open data continue de progresser dans le monde à de rares exceptions près. On pensera ainsi à toutes les données en open data présentes sur le site de la Maison Blanche aux Etats-Unis sur le site open.whitehouse.gov qui ont été supprimées après l’arrivée de Donald Trump... Le site n’est d’ailleurs même plus accessible aujourd’hui.
D’après l’open data Barometer, (https://opendatabarometer.org), la France est classée en 4e position des pays les plus avancés en matière d’open data derrière le Canada, le Royaume-Uni et l’Australie.
De plus en plus de ministères, villes, métropoles, départements, organismes publics ou encore un nombre non négligeable d’entreprises publient des données ouvertes.
D’après le site https://labo.societenumerique.gouv.fr :
L’open data progresse mais la route est encore longue...
Mais si le volume de données en open data est aujourd’hui loin d’être négligeable, le plus difficile reste de s’y retrouver et de savoir où et comment chercher.
Déjà abonné ? Connectez-vous...
Les plus anciens de nos lecteurs ont certainement entendu parler de Madeleine Wolff-Terroine, l’ont rencontrée ou ont travaillé avec elle.
Elle vient de nous quitter à l’âge de 99 ans.
Personnalité marquante du monde de l’infodoc, elle a eu une carrière extrêmement riche tant en France (elle a été présidente de l’ADBS dans les années 70) qu’à l’étranger, en travaillant pour de nombreux organismes internationaux.
Elle a aussi écrit régulièrement dans BASES dans les années 90.
PANORAMA
• L’information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?
COMPTE-RENDU DE CONFÉRENCE
• Internet Librarian International : le salon incontournable des professionnels de l’information anglophones
A LIRE
• Le professionnel de l’information peut-il se réinventer en entrepreneur ?
Déjà abonné ? Connectez-vous...
Quand on recherche de l’information sur le Web, on a souvent l’impression que tout ce qui a, un jour, été publié sur le Web ouvert doit pouvoir se retrouver d’une manière ou d’une autre, notamment en tirant parti des fonctionnalités avancées des moteurs de recherche comme Google. Or l’information sur le Web ouvert est bien plus éphémère qu’on ne pourrait le croire...
Dans la réalité, une très grande partie de ce qui a été publié sur le Web dans les années 1990 et 2000 n’existe plus en tant que tel. Les sites Web ont été refaits ou ont tout simplement disparu. Et de fait, bon nombre de ces contenus sont désormais inaccessibles par les moteurs de recherche classiques.
Et, comme nous le verrons par la suite, cette obsolescence rapide des contenus Web ne se limite pas uniquement à ce qui est ancien.
Comment faut-il donc appréhender une recherche d’antériorité sur le Web ? Quelles sont les meilleures méthodes pour retrouver de l’information ancienne via les moteurs classiques ? Comment faire quand l’information n’est plus accessible par ces mêmes moteurs ? Quelles sont aujourd’hui les initiatives d’archivage du Web en Europe et dans le Monde et comment en tirer parti pour la recherche d’information ?
Si les contenus publiés sur le Web ouvert ont l’immense avantage d’être accessibles gratuitement, leur durée de vie n’est malheureusement pas si longue et cela peut avoir un impact dans un contexte professionnel de recherche d’information.
Plusieurs études se sont intéressées à la durée de vie moyenne d’un site Web et d’une page Web et les résultats méritent d’être signalés.
Selon les différentes sources que nous avons pu consulter, la durée de vie moyenne d’un site Web se situe entre 2 et 5 ans.
Et quant à la durée moyenne d’une page Web, les chiffres varient d’une étude à l’autre mais toutes convergent vers une durée de vie plutôt courte :
Ainsi, même s’il est impossible de connaître précisément la durée de vie moyenne d’un site et d’une page Web, on peut en conclure aisément qu’elle est courte.
Sur un même sujet et une même requête, une recherche Web effectuée en 2018 produira des résultats différents d’une recherche effectuée en 2017, en 2016 et ainsi de suite...
Cependant, tous les contenus publiés sur le Web ouvert ne sont pas impactés de la même manière. Car pour les informations structurées, même si l’information disparaît de son site d’origine, il existe souvent des sources, outils et bases de données gratuits ou payants qui conservent une grande antériorité.
Pour la presse en ligne par exemple, on peut retrouver aisément des articles anciens en se tournant vers les bases de données et agrégateurs de presse. Les bases de données sont aussi d’un grand secours pour les données financières ou les statistiques anciennes.
Et pour la production scientifique et les brevets en libre accès, il existe des bases de données et serveurs scientifiques et brevets qui proposent une très grande antériorité.
Mais pour les informations publiées sur d’autres types de sites et pages Web, on se retrouve beaucoup plus démuni...
On pensera notamment aux :
Et quand ces sites ferment leurs portes ou sont tout simplement refondus, les contenus mais également les documents qui y sont hébergés et qui sont souvent de grandes valeurs disparaissent parfois à tout jamais du Web.
On pensera ainsi aux rapports techniques, notes, évaluations, guides, newsletters, protocoles, etc. qui s’apparentent à ce qu’on appelle la « littérature grise »1.
Quand on effectue une recherche sur les moteurs Web, il faut donc avoir conscience que certains résultats Web pertinents n’existent peut-être déjà plus ou n’apparaissent pas ou plus dans les résultats proposés. On rappellera en effet que Google propose de moins en moins de résultats visualisables (aux alentours de 200/300 seulement maximum).
Quelle méthode adopter pour retrouver ces contenus dont on ne soupçonne même pas toujours l’existence ?
Déjà abonné ? Connectez-vous...
Nous avons cette année pu nous rendre au salon Internet Librarian International qui avait lieu à Londres les 16 et 17 octobre derniers et qui fêtait cette année ses 20 ans. Cette conférence de deux jours précédée d’une journée de Workshops se définit comme « The library innovation conference » et vise tous les professionnels de l’information dans leur ensemble qu’ils travaillent dans des bibliothèques publiques, universitaires ou des centres de documentation ou services de veille publics ou d’entreprise.
Pour beaucoup de professionnels qui avaient l’habitude de se rendre au salon Online et dont la dernière édition date de 2013, ce salon est devenu le rendez-vous incontournable de la profession, du moins en Europe. Nous avons ainsi pu y croiser des professionnels du monde entier, des anglais et américains surtout mais également de nombreux représentants des pays du nord de l’Europe et quelques personnes venues d’Asie.
Le modèle de la conférence est assez loin de ce qu’on a l’habitude de voir sur des salons comme I-expo par exemple. Ici, il n’est pas véritablement question d’exposants - seuls quelques sponsors disposaient d’une table dans le hall d’entrée avec quelques prospectus - mais de conférences plénières (une trentaine) réparties dans trois parcours thématiques. L’accès à l’ensemble de l’événement est entièrement payant.
La veille de l’ouverture se tenaient également quelques Workshops payants dédiés au Marketing des bibliothèques et à la recherche d’information.
Et parallèlement à cet événement, avait lieu la même conférence aux Etats-Unis sous le nom de « Internet Librarian », cette dernière s’étalant sur 3 jours.
Si globalement, on constatera que le public comme les sujets de conférences étaient tout de même plus orientés bibliothèques universitaires et publiques, il y avait quelques Workshops et quelques interventions particulièrement intéressantes dédiées à la recherche d’information et la veille. Nous reviendrons dans cet article sur tout ce qui concerne les dernières grandes tendances, innovations et l’avenir du métier.
Comme dans toutes les conférences et salons du domaine qui ont eu lieu en 2018, impossible d’échapper à l’Intelligence Artificielle et son impact sur le métier et les outils.
On retrouvera donc cette thématique en filigrane de plusieurs interventions.
Déjà abonné ? Connectez-vous...
Anne-Marie Libmann, directrice opérationnelle de FLA Consultants, et précédemment co-présidente de l'ADBS, a lu le nouveau livre de Jean-Philippe Accart, écrit en collaboration avec Clotilde Vaissaire-Agard : « Bibliothécaires, documentalistes, tous entrepreneurs ?
Comment un professionnel de l’information, héritier de décennies de croyances dans le bien-fondé intrinsèque de la pratique documentaire, peut-il se construire une nouvelle carrière, voire se reconstruire après le passage de Google et la fragilisation des métiers de « l’info-doc »?
Comment, sur ce terrain déconstruit par Internet et une information devenue (très) globalement accessible, développer un nouveau modèle, de nouvelles pratiques, un nouveau système de croyances et, osons le terme, un « business » ?
C’est dans le fond le problème, dramatique, que pose ce livre. Un dilemme semble d'ailleurs d’emblée s’inscrire dans le point d’interrogation même du titre. Un dilemme entre la volonté, et même la nécessité, de regarder l’avenir avec courage et la difficulté à sortir d’un passé glorieux, intellectuel, désormais intellectualisé et fantasmé.
Il est pour toute personne difficile, parfois douloureux, de devoir faire le choix d’un nouveau chemin professionnel. A la lecture de ce livre on peut se demander si ce n’est pas encore plus difficile pour un professionnel de l’information, documentaliste, bibliothécaire, archiviste, dont on sent qu’il s’est retrouvé véritablement dépossédé d’un métier et des valeurs nobles qu’il portait. L’auteur nous rappelle à juste titre : « une histoire riche remontant aux plus anciennes civilisations qui avaient pour souci de consigner les savoirs sous différentes formes et supports ». Un héritage lourd à porter pour certains d’entre nous…
Déjà abonné ? Connectez-vous...
BREVETS
• Intelligence artificielle et propriété intellectuelle
EN BREF
• Une actualité des moteurs très chargée
MÉTHODOLOGIE
• Comment retrouver sur le Web des articles de presse écrite au format original ?
Déjà abonné ? Connectez-vous...