PANORAMA
• Les banques de données brevet gratuites ou freemium
SERVEURS PROFESSIONNELS
• STN : de nombreuses nouveautés
SEARCH SOLUTIONS 2018
• Les moteurs de recherche vers toujours plus de recommandations de contenus
• De la recherche par mot-clé à la recherche vocale et visuelle
INDEX
• Index BASES 2018
Déjà abonné ? Connectez-vous...
Le Web d’aujourd’hui s’émancipe de plus en plus du contenu textuel avec une part toujours plus importante de contenus multimédias. Et de fait, la recherche Web traditionnelle par mot-clé évolue également avec une progression importante de la recherche vocale et de la recherche visuelle et d’images.
Durant cette deuxième session de la journée Search Solutions 2018, il a été question de recherche vocale chez Google d’une part et de recherche d’images chez les journalistes d’autre part.
Lire aussi dans ce dossier :
Les moteurs de recherche vers toujours plus de recommandations de contenus
Cette année encore, Google était présent à la journée d’étude par l’intermédiaire d’Enrique Alfonseca, Research Tech Lead/Manager. Et comme l’année dernière, il était question de recherche conversationnelle appliquée cette fois-ci à l’Assistant Google, l’assistant personnel intelligent développé par Google dont la première version date de 2016.
Preuve en est que la recherche conversationnelle (ici conversation orale entre un internaute et un assistant personnel) est un sujet-clé pour Google.
La recherche d’information dans un cadre professionnel sur Google Assistant n’est pas encore pour demain. L’assistant personnel de Google n’a pour le moment vocation qu’à répondre à des questions du quotidien comme la météo, la réservation d’un restaurant ou de places de cinéma.
Mais comprendre les angles de recherche de Google, c’est aussi comprendre sa stratégie sur le long-terme et son adéquation ou inadéquation potentielle avec les problématiques des professionnels de l’information.
L’assistant Google permet aujourd’hui à l’utilisateur d’interagir avec la machine dans le but de réaliser une tâche. C’est l’utilisateur qui guide la machine et non l’inverse.
Quand les gens interrogent un assistant personnel, ils souhaitent :
Et, par la même occasion, ils souhaitent apprendre quelque chose.
Et tout cela doit fonctionner sans aucun visuel et uniquement grâce à des réponses orales.
La principale difficulté, c’est qu’une très grande partie des sources d’informations Web sont « non structurées » à l’image des pages Web, Wikipédia, etc. Il n’y a pas de champs pour indiquer que telle information correspond à un horaire, une définition, un tarif, une date de naissance, etc.
Déjà abonné ? Connectez-vous...
On sait que l’offre en matière de banques de données brevets est assez pléthorique. Cela reflète d’abord l’évolution des technologies rendant plus facile la création d’une offre sophistiquée. Cette évolution coïncide avec l’importance croissante de l’intérêt pour les brevets pour un grand nombre d’entreprises, de la start-up à la multinationale en passant par les laboratoires publics en mal de valorisation. Un élément facilitant est que ces informations sont a priori gratuites et ne font pas l’objet d’un copyright.
En revanche, la demande croissante de la traduction en anglais des brevets de plus en plus nombreux déposés dans des langues « exotiques », en particulier asiatiques, et n’ayant pas d’équivalent en anglais, génère des coûts non négligeables. Cela est d’autant plus vrai que l’évolution rapide des logiciels de traduction oblige à refaire assez souvent, en les améliorant, les traductions d’une langue essentiellement vers l’anglais. Néanmoins, dans certains cas, les traductions sont disponibles gratuitement.
On peut classer l’offre des banques de données brevets en quatre catégories :
La revue World Patent Information d’Elsevier a publié en mars dernier un article intitulé « Study and comparison of the unique selling propositions (USPS) of free-to-use multinational patent search systems » écrit par Björn Jürgen et Nigel Clarke analysant de façon détaillée six de ces services gratuits.
Leur analyse a été extrêmement fouillée puisqu’ils ont utilisé 66 critères pour évaluer ces six services.
Le minimum de fonctionnalités exigées pour retenir ces six services a été la possibilité de rechercher par mots-clés, par inventeur, par déposant, par date et numéro de priorité, de dépôt ou de publication.
Nous avons exploré ces six sites en privilégiant une présentation générale de chacun d’entre eux plutôt que la reprise détaillée des éléments de l’article auquel on pourra toujours se référer.
On notera la grande variété de ces sites, certains se limitant aux brevets d’autres offrant des brevets et des articles de littérature scientifique. Certains sont totalement gratuits tandis que d’autres sont des sites freemium, sachant que la version gratuite offre déjà des possibilités significatives de recherche. A l’exception de l’un d’entre eux consacré à la chimie, tous sont généralistes.
Enfin, même s’ils sont gratuits, au moins en partie, ce sont des sites plutôt sophistiqués offrant de nombreuses possibilités. Si l’on souhaite vraiment les exploiter au maximum de ce qu’ils offrent, il est nécessaire d’investir un minimum de temps, afin de les maîtriser.
Déjà abonné ? Connectez-vous...
Cette année encore, nous avons eu l’occasion d’assister à la journée d’étude Search Solutions à Londres organisée par BCS (Chartered Institute for IT) et qui a eu lieu le 27 novembre dernier.
Cette manifestation annuelle regroupe à la fois des acteurs des moteurs de recherche (développeurs, ingénieurs, data scientists, etc.) mais aussi les utilisateurs de ces moteurs, notamment les professionnels de l’information.
C’est l’occasion d’avoir une vision claire des dernières tendances et axes d’évolution chez les moteurs de recherche, qui, rappelons-le sont pour la plupart avant tout orientés vers le grand public comme Google, Bing ou encore les réseaux sociaux. Mais toutes ces évolutions ont également un impact fort sur l’avenir des pratiques de recherche et de veille des professionnels de l’information.
Lire aussi dans ce dossier : De la recherche par mot-clé à la recherche vocale et visuelle
Dans ce premier article, nous reviendrons sur la session consacrée à la recommandation et l’exploration de contenus où intervenaient :
La recommandation de contenus prend une place toujours plus importante dans l’univers du Web notamment la recommandation automatique grâce aux progrès de l’informatique d’abord et plus récemment de l’intelligence artificielle.
Lors de cette journée d’étude, nous avons pu constater que la recommandation de contenus reste un thème très important pour les grands acteurs du Web et va même de plus en plus loin.
Nous avions d’ailleurs consacré un article à cette thématique il y a près d’un an dans NETSOURCES.
« La veille et la recherche d’information à l’heure de la recommandation de contenus » - NETSOURCES janvier/février 2018 - n°132 - Il est possible d’acheter ce numéro en version numérique ou papier en nous contactant à l’adresse suivante : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
S’il s’agissait ici de retours d’expérience d’outils très grand public et peu utilisés des professionnels de l’information, en l’occurrence Spotify et Asos, cela illustre bien une tendance forte qui impacte tous les outils de recherche Web grand public, de Google à Bing en passant pour tous les réseaux sociaux qui sont aujourd’hui des outils indispensables pour la veille et la recherche d’information.
Comprendre les grandes tendances et évolutions de ces outils permet de voir vers quoi se dirige la recherche Web de demain. Bon nombre des grandes évolutions du Web ont d’ailleurs débuté dans la sphère grand public avant d’être transposées d’une manière ou d’une autre dans la sphère professionnelle comme les outils de veille ou bases de données professionnelles par exemple.
Déjà abonné ? Connectez-vous...
Après le léger passage à vide observé lors de l’abandon du développement de New STN, STN montre un regain de dynamisme et, lors de la dernière journée d’utilisateurs, les nouveautés ne manquaient pas.
Il faut d’abord savoir que tous les nouveaux développements et les ajouts de nouvelles bases se feront sur STNext.
Pour leur part, New STN et STN Express continueront à exister mais ne bénéficieront d’aucune nouvelle fonctionnalité et seront abandonnés à terme
Comme tous les ans, les thésaurus de Medline et Embase ont été mis à jour. De même, les Manual Codes de WPI ont également évolué.
Par ailleurs, d’autres informations en provenance d’Elsevier (le producteur d’Embase) et de Dialog montrent une série de rapprochements entre Embase et Medline. Ce sujet paraît fort complexe et nous sommes en train d’investiguer précisément.
Enfin sur un tout autre sujet, on voit de plus en plus souvent certains articles scientifiques remis en cause, voire retirés, par exemple en raison d’utilisation d’images qui ne sont pas bonnes, essentiellement dans des articles concernant le domaine de la biologie.
Nous y avions consacré un article dans Bases n° 329 (septembre 2015) et nous constatons qu’un journal comme Le Monde traite de plus en plus fréquemment cette problématique à travers ses articles.
Dans ce contexte, Embase a ajouté des liens vers les articles « rétractés » et les erreurs signalées.
Pour identifier les articles rétractés, au nombre d’environ 1 500, qui peuvent être signalés de plusieurs façons, il faut écrire
=> S (“RETRACTATION TO” OR “RETRACTRATION OF”)/TI OR RETRACTATION NOTICE/SO OR RETRACTED PUBLICATION/DT
Pour rechercher des signalements d’erreur, au nombre d’environ 150 000, on écrira
=> S (ERRATUM OR CORRIGENDUM OR CORRECTION)/TI OR (ERRATA OR ERRATUM)/ CT,DT
On notera que dans Inpadoc, l’Office Européen des Brevets a complètement redéfini les codes liés aux paiements des redevances annuelles des brevets.
Enfin, Inspec et Compendex continuent à élargir leur couverture.
Inspec qui a ajouté plus de 900 000 références en 2017, offre actuellement plus de 17 millions de références.
Cette base inclut aussi maintenant des références de 450 publications en open access et des documents du repository arXiv, un pionnier de ce type de source.
En ce qui concerne Compendex, le contenu s’est enrichi de plus de 170 000 thèses américaines, les plus anciennes remontant à 1903. Il est prévu d’ajouter chaque année environ 6 000 nouvelles références de thèses.
Sur STNext, il est enfin possible maintenant de faire des recherches de structures simultanément dans quatre bases de données : CAS Registry (plus de 140 M), MARPAT (1,2 M), Derwent Chemistry Resources 3,2 M) et DWPIM (2,1 M ). REAXYSFILESUB (28 M) sera également disponible, prochainement.
On notera que DWPIM n’est accessible qu’aux détenteurs d’un contrat forfaitaire qui ont souscrit spécifiquement à l’option DWPIM.
Déjà abonné ? Connectez-vous...
TENDANCES
• Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
MOTEUR DE RECHERCHE
• Google Dataset Search : peut-il devenir le Google Scholar des données ?
PANORAMA
• Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
OPEN DATA
• Quelques rappels sur l’open data au service de la recherche d’information
Déjà abonné ? Connectez-vous...
Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.
Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.
Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?
Lire aussi dans ce dossier :
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Si pendant longtemps, la recherche d’information se basait essentiellement sur des contenus textuels comme les articles de presse, articles scientifiques, brevets, rapports, études, pages Web textuelles, etc., les choses évoluent rapidement.
L’image, la vidéo ou encore le son prennent une place de plus en plus importante avec notamment l’essor de la recherche visuelle, vocale, la reconnaissance de logos ou de texte dans les images. On parle de plus en plus d’un univers « post-texte ».
Au-delà du développement de ces contenus multimédias, on assiste également à un autre mouvement intéressant : un intérêt et une valorisation croissante pour les données en tant que telles, comme les données publiques et les données de la recherche scientifique et académique.
Elles s’extraient progressivement de leurs supports traditionnels comme les articles scientifiques, les rapports, les études et autres publications pour devenir des objets et informations à part entière qui sont partagés librement sur le Web et donc deviennent potentiellement « recherchables ».
Et ces changements impactent bien évidemment les professionnels de l’information qui doivent adapter leur façon de rechercher et intégrer de nouvelles sources et contenus.
Déjà abonné ? Connectez-vous...
Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Il est vrai que la recherche de données est aujourd’hui un challenge.
Les données et datasets sont aujourd’hui nombreux sur le web ouvert mais très fragmentés, et les identifier relève parfois du parcours du combattant...
La première difficulté réside dans l’hétérogénéité des datasets. Si les données sont partagées et mises en ligne librement, elles ne sont pas pour autant bien décrites par des métadonnées et les mots-clés qui leur sont associés ne sont pas nécessairement les meilleurs ni les plus adaptés. De fait, ces datasets sont donc difficilement identifiables. De plus, les différents acteurs n’utilisent pas tous les mêmes référentiels de métadonnées et on se retrouve face à une très grande variété de datasets et de métadonnées.
D’autre part, elles sont peu visibles dans les résultats des moteurs de recherche traditionnels et mal indexées. En effet, dans le cas des datasets, la recherche s’effectue généralement sur les métadonnées1 uniquement et non sur du texte intégral ou les données elles-mêmes, comme c’est le cas sur des articles ou des pages web. On a donc intérêt à ce qu’elles soient bien décrites.
Enfin, même s’il existe une multitude d’initiatives, plateformes, entrepôts de données, outils de recherche dédiés, etc., ils restent peu visibles et peu harmonisés.
Avec Google Dataset Search, Google vient donc se positionner sur un créneau où il y a un réel besoin. Est-il le plus légitime pour le faire ? Son outil répond-il vraiment aux besoins et problématiques d’une recherche d’information professionnelle ? C’est ce que nous verrons dans la suite de cet article.
Déjà abonné ? Connectez-vous...
Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
On pourra retrouver la définition de « données de la recherche » dans le premier article de ce numéro de BASES (Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?)
On rappellera qu’il peut s’agir aussi bien de fichiers excel, d’images, de morceaux de codes, de texte, de documents, de vidéos, de visualisations graphiques, de données géographiques, audio, etc. Cela concerne toutes les disciplines qu’il s’agisse des sciences humaines et sociales ou sciences dures.
Et ces données peuvent avoir une très grande valeur dans un contexte de veille et de recherche d’information.
Avant de se plonger dans les sources et méthodes, il convient de se familiariser avec cet univers pour mieux le comprendre et bien y effectuer des recherches.
Les données de la recherche que l’on retrouve sur le web s’inscrivent dans le mouvement de l’open science/ science ouverte qui vise à rendre la recherche scientifique et ses données accessibles à tous.
Les jeux de données sont généralement hébergés dans des entrepôts de données (repositories). On peut voir également apparaître des termes comme research data repositories, research data initiatives, data repositories, digital data repositories.
On notera que les termes anglais sont beaucoup plus utilisés que les termes français même dans un environnement francophone.
On constate qu’il existe une multitude d’entrepôts, probablement des milliers, certains pluridisciplinaires et d’autres très spécialisés, qu’il serait bien évidemment impossible de lister dans leur intégralité ici.
Nous avons donc choisi de présenter les grandes sources (annuaires, moteurs) permettant de les identifier ainsi que des méthodes pour les identifier sur le Web.
Ces jeux de données sont souvent dotés de DOI (Digital Object identifier) ou autre identifiant numérique (à l’image des articles scientifiques) qui permettent de les identifier et de les retrouver de manière pérenne.
Les jeux de données peuvent être reliés aux articles scientifiques pour lesquels ils ont été créés et sont donc identifiables via l’article en question ou bien ils peuvent exister indépendamment et être recherchés via des moteurs de recherche (web, moteur interne des entrepôts, etc.).
En termes de fonctionnalités, on peut généralement rechercher sur les métadonnées associées à ces jeux de données mais très rarement sur les données elles-mêmes, ce qui est un élément crucial à prendre en compte. On ne recherche pas sur des métadonnées comme on recherche sur du fulltext ou plutôt pourrait-on dire sur du « fulldata ».
Déjà abonné ? Connectez-vous...
Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).
Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
L’open data continue de progresser dans le monde à de rares exceptions près. On pensera ainsi à toutes les données en open data présentes sur le site de la Maison Blanche aux Etats-Unis sur le site open.whitehouse.gov qui ont été supprimées après l’arrivée de Donald Trump... Le site n’est d’ailleurs même plus accessible aujourd’hui.
D’après l’open data Barometer, (https://opendatabarometer.org), la France est classée en 4e position des pays les plus avancés en matière d’open data derrière le Canada, le Royaume-Uni et l’Australie.
De plus en plus de ministères, villes, métropoles, départements, organismes publics ou encore un nombre non négligeable d’entreprises publient des données ouvertes.
D’après le site https://labo.societenumerique.gouv.fr :
L’open data progresse mais la route est encore longue...
Mais si le volume de données en open data est aujourd’hui loin d’être négligeable, le plus difficile reste de s’y retrouver et de savoir où et comment chercher.
Déjà abonné ? Connectez-vous...