Knoema et Statista sont deux plateformes fournissant des quantités importantes de données statistiques issues de milliers de sources. Elles couvrent différents secteurs, marchés ou encore pays.
Les deux plateformes se positionnent à première vue sur un même marché similaire. Pourtant, il existe entre elles des différences non négligeables et elles ne répondent pas aux mêmes besoins.
Dans le dernier numéro de BASES, nous avions présenté une série de sources pour effectuer une veille sur le Coronavirus.
Compte tenu de l’actualité et de l’effervescence liée au sujet, de nouvelles sources voient le jour très régulièrement, sachant que certaines ressources se retrouvent dans plusieurs sites agrégeant les principales ressources sur le sujet.
Lancée en février, la nouvelle base lancée par Dialog Solutions propose aujourd’hui plus de 33 500 références bibliographiques de documents scientifiques, essentiellement des articles, ce nombre augmentant rapidement, avec une mise à jour quotidienne.
OUTIL DE VEILLE • Edd devient Aday, la mutation de la plateforme de veille média, pp. 1-4
AGENDA • Report des conférences et formations, p. 4
BREVETS • Les combinations sets dans la classification des brevets, p. 5
IST • Les nouveaux outils de recommandation pour l’IST, pp. 6-9
SOURCING • Quelles sources pour une veille sur le Coronavirus ? pp. 10-11
L’acteur historique de l’accès numérique à la presse française a changé discrètement de nom courant mars. Mais ce changement de nom est le reflet d’une mutation plus profonde qui a démarré il y a plusieurs années.
Né en 1989 de la fusion de G.Cam serveur et Juridial, sous le nom de l’Européenne de Données à l’époque, il a été l’un des premiers à offrir un accès en ligne aux grands quotidiens comme Le Monde ou aux dépêches de l’AFP. Racheté en 1991 par ORT, il continue alors à être commercialisé sous sa marque. Lorsque Reuters rachète ORT en 1999, l’Européenne de Données ne fait pas partie du rachat et est reprise à titre personnel par les fondateurs d’ORT. C’est en 2004 que L’Européenne de Données adopte le sigle EDD, plus facile à utiliser.
Il existe, ou il a existé, plusieurs classifications de brevets reposant sur les éléments constitutifs de chaque brevet.
La plus récente est la Classification Coopérative des brevets (CPC) qui est une extension de la Classification Internationale des Brevets (CIB), créée par l’Arrangement de Strasbourg de 1971, qui est un système hiérarchique de classement des brevets selon les différents domaines technologiques auxquels ils appartiennent.
Cette nouvelle classification des brevets est gérée conjointement par l’Office Européen des Brevets (OEB) et l’United States Patent and Trademark Office (USPTO) et intègre les meilleures pratiques de classification des deux offices. Sa création a été initiée en 1990 par un accord entre les deux offices et elle a été mise à disposition au début de 2003.
Depuis deux ou trois ans, le nombre de nouveaux outils pour la recherche d’information scientifique et technique est en nette progression, ce qui est une bonne nouvelle. Et cerise sur le gâteau, la majorité de ces outils fonctionne sur un modèle de gratuité.
La principale raison de cette prolifération d’outils est simple : il y a d’une part le développement de l’open science (articles scientifiques en open access, ouvertures des données de la recherche) qui fournit une matière précieuse au développement de nouveaux projets et outils et d’autre part les récentes avancées de l’IA qui permettent de proposer des outils d’un nouveau genre.
En 2020, la trajectoire semble se confirmer et de nouveaux outils de recommandation automatique de contenus appliqués à l’IST ont récemment fait leur apparition.
Nous avons choisi dans cet article de faire le point sur ces nouveaux outils de recommandation de contenus en l’occurrence Meta, Scitrus, Sparrho et CoCites.
Actualité oblige, de nombreux professionnels de l’information se retrouvent à devoir effectuer recherches d’information ou veilles sur le sujet du coronavirus.
Mais cela n’a rien de simple tant le volume d’information à l’échelle mondiale illustre parfaitement le concept de surinformation.
Un volume d’information impossible à gérer humainement
Du côté de la presse par exemple, Tagaday (ex-Pressedd) recensait plus de 19 000 mentions du coronavirus dans la presse française en mars 2020 (voir figure 1.).
Mediatree relevait quant à lui plus de 49 000 mentions sur les radios et TV françaises entre le 19 et le 25 mars. Et on se situe ici uniquement au niveau français...
Les articles scientifiques ne sont bien sûr pas en reste. Les bases de preprints (donc non validés par les pairs) MedrXiv et BiorXiv dépassent déjà les 1 000 articles dédiés au Coronavirus.
Enfin, les réseaux sociaux ne parlent pratiquement plus que de cela.
IST • Les outils documentaires du CHU de Rouen : CISMeF, LiSSa et HeTP
TENDANCES • L'OSINT : illusion marketing ou nouveau champ d’investigation pur les professionnels de l’info ?
BREVES • I-expo et Documation reportés au mois de mai 2020
OPEN DATA • L’INPI vient de lancer la base gratuite data.inpi.fr
MOTEURS DE RECHERCHE • Google, toujours à l’affût de nouveaux créneaux porteurs
Dès 1995, le CHU de Rouen s’est intéressé aux sites web en langue française concernant la santé puis à la littérature médicale en langue française et a acquis une notoriété certaine. Nous avons choisi dans cet article de nous intéresser aux différents outils documentaires qu’il propose.
Cet intérêt du CHU de Rouen a débouché, dans un premier temps, sur le projet de Catalogue et Indexation des Sites Médicaux de langue française (CISMeF) qui a été réalisé par l’équipe qui appartient aujourd’hui au D2IM (Département d’Informatique et d’Information médicale du CHU hôpitaux de Rouen). Ce site s’est développé et se développe toujours de façon continue tant au niveau de son contenu que des possibilités de recherche aujourd’hui très avancées. Il a été distingué par de très nombreux prix, a reçu de nombreux labels et a bénéficié aussi du soutien financier de divers organismes.
Depuis quelque temps, on voit fleurir un peu partout, sur les réseaux sociaux et en particulier dans les environnements liés à la veille et à l’intelligence économique, le terme d’« OSINT », sorte de hashtag de ralliement, entre initiés, à une cause ou une injonction secrète.
La difficulté à en saisir immédiatement le sens, - le terme semble, sinon barbare, pour le moins abscons - nous a intrigués. S’agit-il d’un nouveau concept stratégique de notre monde de l’information, d’un code communautaire ou bien, très prosaïquement, d’un hashtag «marketing » destiné à promouvoir, dans la collectivité des professionnels de l’information et sur le web, quelques consultants ou produits ?
Data.inpi.fr propose des données sur les entreprises issues du Registre National du Commerce et des Sociétés.
Cette base vient rejoindre les autres bases de données gratuites déjà disponibles, proposées par l’INPI sur :
les marques françaises, de l’Union Européenne et internationales ;
les brevets français, européens et internationaux ;
les dessins et modèles français et internationaux ;
Christoph Haxel qui organise AI - SDV est parfaitement capable, comme il le montre, d’adapter le nom de sa ou ses manifestation(s) pour suivre l’évolution des technologies.
En effet, AI - SDV remplace IC - SDV qui a eu lieu deux fois et qui était la fusion des deux manifestations II - SDV et ICIC. De plus, la localisation à Heidelberg a été abandonnée. La mention « AI » dans le titre illustre, bien sûr, le développement de l’intelligence artificielle et de ses applications.
C’est pourquoi, les thèmes privilégiés seront l’intelligence artificielle, la numérisation comme préalable à la mise en place d’une intelligence artificielle, l’apprentissage profond (deep learning), …
Avec Google, impossible de s’ennuyer, car l’actualité ne s’arrête jamais : nouveaux produits, évolutions de fonctionnalités, revirement de stratégie, etc. Et ce début d’année 2020 ne manque pas de nouveautés qui vont venir impacter le quotidien des professionnels de l’information pour le meilleur et pour le pire.
Les évolutions majeures concernent peu le moteur Web de Google mais surtout ses verticales thématiques : Google Datasets, Google Podcasts, ou encore Google Actualités.
BANQUE DE DONNÉES
• Propriété intellectuelle : Clarivate Analytics rachète darts-ip
DOSSIER AGRÉGATEURS DE PRESSE
• Google Actualités : la tendance n’est pas au beau fixe
• Quelles alternatives crédibles à Google Actualités en 2020 ?
• Les agrégateurs de presse payants ont-ils toujours de la valeur ?
darts-ip est un produit à la fois original et intéressant qui indexe de façon très fine et la plus exhaustive possible la jurisprudence en matière de propriété intellectuelle.
Aujourd’hui plus de cinq millions de documents sont disponibles, concernant des litiges et même de simples poursuites dans les domaines des brevets (1,6 million d’affaires), marques (3,2 millions d’affaires), dessins et modèles (108 000 affaires), noms de domaines (136 000 affaires), copyright (156 000 affaires) et concurrence déloyale couvrant aujourd’hui le monde entier.
Lire aussi :
darts-ip : croissance et changement de politique
BASES n°294, juin 2012 : à commander en direct en nous écrivant à Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Le terme « agrégateur de presse » est indissociable de la recherche d’information presse mais il revêt aujourd’hui de multiples dimensions.
A l’origine, le terme faisait exclusivement référence aux agrégateurs de presse payants comme Factiva, Nexis, Press’edd, etc. qui fournissaient un outil de recherche mais également un accès au texte intégral à tous les articles de presse qu’ils indexaient.
Aujourd’hui, la grande majorité de ces acteurs intègrent des contenus plus larges (blogs, médias sociaux, sites, etc.) et se contentent pour certaines sources de crawler les sites Web sans donner accès au texte intégral.
Lire aussi :
Quelles alternatives crédibles à Google Actualités en 2020 ?
Les agrégateurs de presse payants ont-ils toujours de la valeur ?
Nous avons pu voir dans l’article « Google Actualités : la tendance n’est pas au beau fixe » de ce dossier spécial que Google Actualités s’avérait de plus en plus décevant dans un contexte professionnel et que de récentes annonces ne faisaient d’ailleurs que venir noircir un peu plus le tableau.
Des alternatives gratuites à Google Actualités existent depuis des années… mais jusqu’ici aucune n’était réellement satisfaisante.
Lire aussi :
Les agrégateurs payants ont-il toujours de la valeur ?
Google Actualités : la tendance n’est pas au beau fixe
Face à la dégradation de Google Actualités et à l’absence d’alternatives réelles en matière d’agrégateurs de presse gratuits, on pourrait être tenté de considérer que seuls les agrégateurs de presse payants peuvent permettre de réaliser de bonnes recherches d’information sur la presse.
Sur le papier, leurs corpus de sources continuent de s’enrichir et se diversifier avec les années et les fonctionnalités de recherche expertes restent présentes tandis que de nouvelles se développent.
Les agrégateurs de presse payants sont-ils aujourd’hui la seule solution pour réaliser des recherches d’information de qualité ? Ou bien à l’image des agrégateurs de presse gratuits, eux aussi seraient-ils en réalité sur une pente descendante ?
Lire aussi :
Google Actualités : la tendance n’est pas au beau fixe
Quelles alternatives crédibles à Google Actualités en 2020 ?
Presse, réseaux sociaux, contenus multimédias, littérature scientifique, données ... : rechercher sur des contenus très disparates
DOSSIER SPECIAL CONFERENCE SEARCH SOLUTIONS 2019 - Londres
• Le SEO et la veille au défi des moteurs
BREVES • LexisNexis Newsdesk devient Nexis Newsdesk
SERVEURS • WTI : des ressources allemandes peu connues
INDEX • Les lettres de BASES 2019
Pour la troisième année consécutive, nous avons assisté à la journée « Search Solutions » à Londres où se côtoient ceux qui font les moteurs (ingénieurs, data scientists, informaticiens, etc.) et ceux qui les utilisent (professionnels de l’information et du SEO).
L’intelligence artificielle et plus particulièrement le machine learning et le NLP (Natural Language Processing) étaient encore une fois au cœur de la très grande majorité des présentations.
Lire aussi :
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.
On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Le SEO et la veille au défi des moteurs
Etre un expert de la veille et de la recherche d’information, et maintenir son expertise, est plus que jamais un challenge car le monde de l’information est en perpétuel mouvement.
Les outils de recherche et de veille évoluent très rapidement, de nombreux acteurs apparaissent et disparaissent régulièrement, les sources d’information évoluent et changent de business model, ce qui nécessite une surveillance large de son environnement.
La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.
Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.
Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Les moteurs de recherche spécialisés (recrutement, juridique, santé) étaient à l’honneur cette année.
Et tous ces acteurs s’intéressent à la façon dont ils peuvent faire évoluer leurs outils en tirant parti du développement de l’IA tout en restant à l’écoute de leurs utilisateurs.
Trois acteurs étaient venus présenter certains axes de recherche sur lesquels ils ont travaillé récemment pour améliorer leurs moteurs.
Nous commencerons avec un outil de recherche spécialisé dans le recrutement et les ressources humaines appelé Texternel, fondé en 2011 à Amsterdam. Il s’agit d’un moteur principalement utilisé par les services RH des entreprises et qui permet de rechercher sur des bases de CV et réseaux sociaux afin d’identifier les bons candidats pour un poste.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Très éloignée des autres présentations, celle de Dawn Anderson, spécialiste du SEO (Search Engine Optimization) était néanmoins intéressante dans la mesure où elle faisait écho à ce que vivent les professionnels de l’information.
Le monde du SEO et de ceux qui développent les moteurs sont des mondes avec très peu de connexions.
Le SEO est encore trop souvent perçu par les informaticiens comme des personnes qui manipulent les résultats de recherche et sont souvent associés à l’image du spam.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Newsdesk, le produit LexisNexis à mi‑chemin entre un agrégateur de presse et une plateforme de veille, change de nom et devient Nexis Newsdesk.
Ce changement est effectif depuis novembre.
Lire aussi :
BASES N°244 de Décembre 2007 à commander en direct en nous écrivant à : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.
Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.
Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.
COMPTE-RENDU DE CONFÉRENCE
ILI 2019 : une vision anglo-saxonne de l avenir des professionnels de l information
TENDANCES
Les nouveaux Netflix de la presse vont-ils concurrencer Factiva, Nexis Newsdesk, Press edd et les autres ?
BASE DE DONNEES
CAS Formulations database : une nouvelle banque de données sur STN
Comme l’année dernière, nous avons eu l’occasion d’assister au salon Internet Librarian International à Londres, le rendez-vous annuel des professionnels de l’information (documentalistes, veilleurs, bibliothécaires) outre-Manche.
L'un des grands intérêts de ce e salon qu'il s'y côtoie professionnels européens, mais également des quatre coins de la planète.
Cette année encore, ce fut une expérience enrichissante qui nous a permis de mettre en perspective les problématiques des professionnels de l’information français et celles de leurs homologues d’autres pays.
Alors que des services comme Netflix pour la vidéo à la demande ou Spotify pour la musique sont devenus incontournables auprès des internautes, cela fait des années que revient régulièrement l’idée d’un « service de streaming » de la presse, basé sur un abonnement mensuel low-cost avec un accès illimité à un grand nombre de titres de presse.
En France, l’idée n’est pas nouvelle et tout avait commencé il y a quelques années avec des kiosques numériques à l’image de lekiosque.fr (qui vient d’être rebaptisé Cafeyn), SFR Presse ou encore E-presse. Mais ces services avaient, à leurs débuts, vocation à vendre des numéros de journaux et magazines à l’image des kiosques à journaux physiques.