Entretien croisé entre Joseph Noumbissi, Conseiller - Gestion de l’information documentaire chez Hydro-Québec et Carole Tisserand-Barthole, rédactrice en chef de BASES et NETSOURCES
"L’information est un actif essentiel dans les organisations, et fournit de nombreux avantages, notamment stratégiques, concurrentiels, technologiques, commerciaux, etc.
La survie des services documentaires ou d’information tient essentiellement à leurs capacités d’adaptation et d’innovation.
Les professionnels de l’information, par leur connaissance des sources et des moyens de les exploiter de façon optimale, constituent donc un atout important pour les organisations."
Déjà abonné ? Connectez-vous...
Nous apprenions il y a quelques jours que Pubmed testait une nouvelle interface. Celle-ci est accessible sur Pubmed Labs (https://www.ncbi.nlm.nih.gov/labs/pubmed) et n’a pas vocation à supplanter l’interface actuelle pour le moment. Le but étant de tester de nouvelles fonctionnalités.
Parmi les nouveautés, on notera :
L’éditeur académique De Gruyter vient de lancer Science Discoveries (http://sciencediscoveries.degruyter.com), une plateforme dédiée à l’actualité scientifique sur l’avancement de la recherche dans les domaines de la médecine, santé, environnement et technologie. Le site met en avant la recherche publiée dans les revues de l’éditeur mais avec une mise en contexte permettant de toucher un plus grand public.
On notera que l’éditeur propose également depuis plusieurs années la plateforme Open Science où il met en avant ses contenus en Open Access (http://openscience.com).
Dans le précédent numéro de BASES (L’avenir de la recherche Web sera-t-il thématique ? - BASES n°351 - Septembre 2017), nous avions évoqué le (re)développement des archives thématiques et cité un certain nombre d’initiatives. On pourra donc rajouter à cette liste une nouvelle archive ouverte qui verra le jour au début de l’année 2018 : ESSOAr (http://www.essoar.org). Développée par l’American Geophysical Union et soutenue par l’éditeur Wiley, cette archive ouverte sera dédiée aux science de la terre et de l’espace. Elle commencera à accepter des préprints à partir de début 2018.
Pour la veille audiovisuelle, les professionnels de l’information disposent de toute une panoplie d’outils et de prestataires spécialisés (voir notre article « Veille audiovisuelle : panorama de l’offre » - BASES n°349 - juin 2017).
Parmi eux, on compte la plateforme de veille de LexisNexis Newsdesk. LexisNexis vient d’annoncer avoir conclu un partenariat avec Critical Mention, une entreprise spécialisée dans la veille audiovisuelle, pour améliorer la couverture des sources audiovisuelles au sein de sa plateforme Newsdesk. Fondée en 2002 aux Etats-Unis, Critical Mention surveille plus de 2 200 sources audiovisuelles, notamment aux Etats-Unis, Canada et Grande-Bretagne.
En ce mois d’octobre, l’actualité en provenance de Google ne manque pas... Et le géant américain est présent sur tous les tableaux !
Premier angle d’attaque : l’intelligence artificielle ! On apprenait ainsi il y a quelques jours que Google entraînait son intelligence artificielle à interpréter les gestes humains à partir de séquences vidéos YouTube. Le but est d’être capable de reconnaître 80 actions humaines basiques comme la marche, prendre une photo, courir, nager, etc. Pour Google, cela servira à l’amélioration des capacités prédictives de ses algorithmes et permettra de mieux détecter les vidéos à censurer.
Malheureusement, même si l’intérêt serait réel pour la recherche d’informations sur les contenus audiovisuels, il n’est pas du tout certain que Google transformera cette innovation en une fonctionnalité de recherche pour son moteur de vidéos...
Toujours au niveau de l’intelligence artificielle, on citera une nouvelle étude intéressante réalisée par des chercheurs de l’Université de Cornell qui a comparé l’intelligence de plusieurs IA dont celles de Google, Siri (Apple) et Bing (Microsoft) en leur faisant passer un test de QI. Google serait ainsi le meilleur mais son Qi ne dépasserait pas celui d’un enfant de 6 ans ! Cependant, il y a un an, un test similaire avait été mené et estimait le Qi d’une intelligence artificielle à celle d’un enfant de 4 ans. Même si l’intelligence artificielle est encore loin de remplacer le professionnel de l’information, il faudra en reparlera dans quelques années !
Depuis plusieurs années, la recherche sur mobile prend de l’ampleur. Dans ce domaine la France était un peu à la traîne mais vient de renverser la tendance. Google a ainsi annoncé que plus de 50% des recherches via leur moteur étaient désormais réalisées sur mobile. Néanmoins, on doute qu’il s’agisse là d’une véritable tendance pour la recherche d’information professionnelle...
Sauf si le lancement prochain de l’index Mobile First de Google introduit des différences majeures entre les résultats desktop et mobile. Rappelons que Google qui ne disposait que d’un seul index pour les recherches mobiles et sur ordinateurs a décidé de créer un index spécifique pour les recherches sur mobile, en indexant prioritairement la version mobile d’un site. Les résultats entre une recherche sur mobile et sur ordinateur pourraient ainsi être différents. Google a annoncé récemment que l’index mobile était actuellement en test dans les résultats mais on ne connait pas encore la date à laquelle il sera complètement généralisé.
Sur un autre plan, Google a désormais décidé de « venir en aide » à la presse payante.
Premier événement en date : l’annonce de la fin du programme « First Click Free » qui obligeait les éditeurs de presse à proposer au moins 3 articles en libre accès par jour pour s’assurer un bon référencement auprès du moteur. Désormais Google propose deux recommandations aux éditeurs : proposer une dizaine d’articles /mois à chaque lecteur venant de Google pour ensuite l’inciter à passer à un abonnement payant ou bien proposer uniquement en libre accès quelques lignes de chaque article mais pas le texte intégral.
Deuxième événement : Google souhaite maintenant tirer parti des données personnelles dont il dispose et du machine learning pour aider les éditeurs à conserver leur base d’abonnés payants et l’accroître. Un super VRP pour les éditeurs de presse en quelque sorte. Seul bémol, il semblerait que Google cherche à prendre 30% sur chaque nouvel abonnement ramené par ses soins...
Du côté de Bing, l’actualité est moins réjouissante. On apprenait il y a quelques jours qu’Apple avait décidé de remplacer Bing par Google sur IoS et Mac. Désormais, les utilisateurs des produits Apple effectueront donc leurs recherches Web par défaut sur Google. Suite à cette nouvelle, Bing a annoncé vouloir se recentrer sur la recherche desktop (sur ordinateur). C’est finalement plutôt une bonne nouvelle pour les professionnels de l’information !
Depuis quelques années, la société Datasift permettait d’avoir des données agrégées et anonymisées relatives aux diverses publications et actions (publications, commentaires, j’aime, partages, etc.) effectuées sur Facebook.
Facebook vient d’annoncer qu’il allait proposer son propre outil pour l’analyse et la recherche de posts et commentaires. Il devrait être lancé courant 2018. Les données seront également anonymisées.
On ne sait pas vraiment ce qu’il adviendra de la solution proposée par Datasift qui est notamment utilisée par plusieurs grandes plateformes de veille. Cette annonce confirme la tendance que nous avions observée ces derniers temps avec les grands acteurs du Web qui cherchent toujours plus à monopoliser l’attention des internautes vers leurs plateformes et outils au détriment des applications tierces.
Twitter a récemment indiqué qu’il travaillait sur un bouton « enregistrer » permettant aux utilisateurs d’enregistrer des tweets pour les retrouver plus tard. D’autre part, la société a annoncé faire des tests auprès de certains utilisateurs pour augmenter la taille limite des tweets de 140 à 280 caractères. En fonction des résultats, il se pourrait que cela soit ensuite appliqué à tous les utilisateurs. Affaire à suivre !
Du côté des réseaux sociaux professionnels (RSE), on apprenait récemment que Jamespot, l’un des gros acteurs du secteur avait racheté YoolinkPro, un RSE dont nous avions déjà eu l’occasion de parler dans Netsources (N°82 - septembre/octobre 2009). Jamespot n’en est pas à sa première acquisition après le rachat de Human Connect en 2014 et Sonetin l’année dernière.
Du côté des grosses plateformes de veille, Brandwatch vient d’acquérir Buzzsumo, une plateforme permettant d’identifier contenus marketing et influenceurs sur le web social.
On notera également quelques nouveautés du côté des outils gratuits et bons marchés :
Du côté de l’Open Data, on notera :
En revanche, mauvaise nouvelle du côté des décisions de justice. Le Sénat vient de limiter l’ouverture en Open Data des décisions de justice alors que c’était prévu par la loi Numérique votée il y a un an.
TableBase a longtemps été accessible sur Dialog mais avait été abandonnée lors du passage à Proquest Dialog. La voici de retour.
Cette banque de données est très originale dans la mesure où elle sélectionne des articles de la presse économique internationale depuis 1996 contenant des tableaux qu’elle reprend en détail.
Ces tableaux peuvent être des classements de marques ou d’entreprises, des parts de marché, des nombres de points de vente, des statistiques de production ou de consommation, etc.
Produite par Gale (Cengage Learning), une indexation détaillée permet de bien cibler les résultats.
TableBase est mise à jour chaque semaine.
C’est l’occasion de rappeler que Proquest Dialog offre, comme Dialog auparavant, plusieurs banques de données importantes dans le domaine du business/marketing telles que ABI/Inform Professional, Gale Group PROMT®, ou encore Business & Industry Database.
Nous avons voulu récemment effectuer une recherche dans HighWire Press en complément de recherches dans Proquest Dialog, Scopus et STN sur un sujet qui générait peu de réponses. C’est à cette occasion que nous avons appris qu’HighWire Press avait abandonné son moteur de recherche qui permettait de rechercher dans un grand nombre de publications académiques.
Il n’offre plus maintenant qu’un service aux éditeurs pour constituer leur site Web.
Quant à la recherche, quand nous avons posé la question, notre interlocuteur nous a renvoyé sur … Google Scholar, dommage...
Rappelons qu’HighWire Press a été créé en 1995 au sein de la bibliothèque de l’Université de Stanford en Californie. Nous l’avions présenté dans le n° 290 (Février 2012) de BASES.
PANORAMA
• Le RSS est-il encore un atout pour la veille ?
MÉTIER
• Google et les professionnels de l’information : je t’aime, moi non plus !
TENDANCES
• L’avenir de la recherche Web sera t-il thématique ?
EN BREF
• L’actualité de la rentrée
Déjà abonné ? Connectez-vous...
Il y a une dizaine d’années, le RSS était LE sujet qui alimentait les discussions des professionnels de l’information. La fameuse icône orange se propageait sur la majorité des sites d’information, de nouveaux lecteurs de flux RSS gratuits se créaient toutes les semaines et tous les acteurs de la formation en infodoc proposaient des stages pour tirer parti du RSS pour la veille.
Car pour les professionnels de l’information, le RSS était avant tout la découverte d’un format qui offrait un moyen simple et efficace pour suivre les nouveautés d’un site sans se rendre régulièrement sur celui-ci pour y consulter les nouveautés et sans recourir à un outil de surveillance de pages généralement payant et moins intuitif.
Mais force est de constater que le RSS semble avoir perdu de sa splendeur au profit des réseaux sociaux. De nombreux sites ont ainsi supprimé leurs flux RSS, du moins en apparence, mais proposent toutes une collection de boutons Twitter, Facebook, LinkedIn, YouTube, Instagram, Pinterest etc. pour suivre leurs actualités.
Et face à ce report de l’attention vers les médias sociaux comme source d’accès à l’information, les plateformes de social media monitoring semblent avoir pris le pas sur les lecteurs de flux RSS, qui pourtant ne jouent pas dans la même catégorie aussi bien en termes de contenu que de tarifs.
Le RSS est-il pour autant en voie de disparition ? Pas si sûr...
Le RSS est un « format de données utilisé pour la syndication de contenus Web. Les flux RSS sont des fichiers XML qui sont souvent utilisés par les sites d’actualité et les blogs pour présenter les titres des dernières informations consultables. » (source : Wikipédia).
Et le format RSS existe depuis de nombreuses années. RSS 0.91 est sorti en 1999 mais le format le plus connu est le RSS 2.0 qui a été lancé en 2002.
Parallèlement au RSS, il existe le format Atom qui est également souvent utilisé pour la syndication de contenu et qui a fait son apparition en 2005.
Les différences entre ces formats sont essentiellement techniques et basées sur des idéologies distinctes : Le développement du format Atom visait ainsi à proposer un format non dépendant d’entreprises et d’acteurs privés, une facilité de mise en oeuvre et une possibilité de modification du format par n’importe quelle personne, ce que le RSS ne proposait pas.
Mais cela ne change finalement pas grand chose pour le veilleur au quotidien. Il est d’ailleurs très fréquent d’employer le terme « flux RSS » pour parler d’un fil Atom.
Depuis quelques mois, on voit également fleurir des JSON feed/flux JSON. Comme pour le format Atom, cela ne change pas grand chose pour l’utilisateur final mais ceux-ci répondent visiblement mieux aux besoins des développeurs Web. On retiendra donc simplement que ce dernier format se développe de plus en plus et qu’il est judicieux de recourir à des outils capables de lire et interagir avec ce dernier.
Déjà abonné ? Connectez-vous...
Pour la veille et la recherche d’information, le moteur Google est un outil indispensable, pour rechercher sur le Web ouvert et gratuit ainsi que pour détecter des sources pertinentes dans le cadre du sourcing.
Les relations entre le géant américain et les professionnels de la veille sont cependant compliquées. Ces derniers se voient par exemple dépossédés de leur rôle d’intermédiaire auprès des usagers, désillusionnés quant à la stratégie à long-terme de Google mais doivent également faire face aux retraits réguliers de produits et fonctionnalités très utilisées par les veilleurs.
Google vient tout juste d’annoncer une nouvelle fonctionnalité qui devrait, a priori permettre de donner plus de visibilité aux bibliothèques et à leurs catalogues. Mais est-ce une si bonne nouvelle ?
Désormais, lorsqu’un internaute recherche le titre d’un ouvrage, Google va indiquer dans quelles bibliothèques à proximité on peut obtenir l’ebook en question, à condition d’avoir activé la géolocalisation.
Cette fonctionnalité est disponible aussi bien sur ordinateur que sur mobile mais pour le moment uniquement aux Etats-Unis.
D’après les premiers échos, Google n’inclut pas toutes les bibliothèques et cela semble dépendre des fournisseurs d’ebooks utilisés par les bibliothèques.
Comme toujours, l’initiative de Google n’a sûrement rien de désintéressé et d’autant moins que certains professionnels pointent déjà du doigt que cette nouvelle fonctionnalité permettrait au géant américain d’obtenir toujours plus de données personnelles et de réaliser un profiling des internautes encore plus affiné puisqu’il est nécessaire d’activer la géolocalisation pour en bénéficier.
D’autre part, cela s’inscrit parfaitement dans la stratégie de Google et son « ère de l’assistance ». Il n’a plus vocation à être un moteur de recherche mais un assistant personnel qui vous guide, et dans ce cas précis, de A à Z vers l’ouvrage dont vous aviez besoin.
On pourrait même aller plus loin en se demandant si, finalement, Google ne cherche pas tout simplement à remplacer les bibliothécaires.
Déjà abonné ? Connectez-vous...
Depuis de nombreuses années, la recherche d’information sur le Web fait la part belle aux outils généralistes : Google, Bing, Twitter, etc. Et une partie non négligeable des outils de recherche thématiques gratuits (les annuaires thématiques par exemple) disponibles sur le Web ouvert et qui existaient depuis de nombreuses années ont aujourd’hui disparu ou ne sont plus mis à jour.
Alors qu’il y a une dizaine d’années, on disposait de toute une panoplie d’outils pour rechercher de l’information sur le Web ouvert (annuaires, moteurs, métamoteurs, moteurs spécialisés et thématiques, etc.), ces dernières années, on avait le sentiment que le choix s’était considérablement réduit pour ne laisser la place qu’à Google ou aux moteurs internes des grands médias sociaux comme Twitter, Facebook, LinkedIn, etc.
Précisons que nous nous intéressons ici aux outils gratuits de recherche sur le Web et non aux serveurs et bases de données qui continuent d’exister et de se développer.
Mais cette situation pourrait bien être en train de changer ou, du moins, va devoir changer et ce, pour plusieurs raisons :
Déjà abonné ? Connectez-vous...
Dans le secteur de la recherche, il est en ce moment beaucoup question des « revues prédatrices », en l’occurrence des revues pseudo-scientifiques dont le but principal est l’enrichissement plutôt que l’avancement de la recherche.
Les chercheurs sont généralement sollicités par email par ces revues et invités à soumettre des articles. Elles fonctionnent sur le modèle du libre accès où les auteurs payent pour que leurs articles soient publiés. Mais dans le cas des revues prédatrices, n’importe quel article est accepté et publié, les comités éditoriaux étant souvent composés de membres fictifs ou de chercheurs dont les noms ont été inscrits sans leur accord.
Jeffrey Beall, un bibliothécaire de l’Université du Colorado à Denver avait mis en ligne une liste des revues prédatrices pour aider les chercheurs à ne pas se faire piéger, liste qui a malheureusement été retirée en janvier dernier suite aux nombreuses pressions qu’il a reçues.
Le blog Rédaction Médicale et scientifique propose deux alternatives :
ResearchGate est l’un des principaux réseaux sociaux pour les chercheurs, créé en 2008. Bon nombre de chercheurs y chargent leurs articles, ceux-ci étant donc accessibles à tous les autres membres du réseau social. Cependant, une récente étude intitulée « Copyright compliance and infringement in ResearchGate full-text journal articles » et publiée dans la revue Scientometrics tend à montrer que 51% des articles déposés sur ResearchGate enfreignent les règles du copyright.
On apprenait justement il y a quelques jours que des éditeurs regroupés au sein de l’Association of Scientific Technical & Medical Publishers (STM), parmi lesquels Elsevier, ont proposé un accord à ResearchGate pour limiter le nombre d’articles enfreignant les règles du copyright. Les utilisateurs seraient toujours en mesure de charger des articles scientifiques sur la plateforme mais un algorithme en arrière-plan déterminerait si l’article peut être publié de manière publique ou bien uniquement de manière privée. L’accès serait alors restreint aux co-auteurs ainsi que d’autres private research groups. STM estime que le système pourrait être mis en place d’ici 30 à 60 jours.
ResearchGate n’a pour le moment pas réagi...
Dans le secteur des médias, on notera le lancement récent d’une plateforme de datajournalisme sur l’Europe appelée European Data News Hub (EDNH). L’Agence France Presse (AFP), l’agence italienne ANSA et la Deutsche Presse-Agentur (DPA) sont à l’origine du projet et la plateforme publie des textes en cinq langues (anglais, allemand, français, espagnol et italien), des infographies, des vidéos et des photographies.
Il est toujours intéressant de comprendre et d’analyser le comportement des internautes lors d’une recherche Web. Une récente étude menée par Internet Marketing Ninjas conclut que jusqu’à 30% des résultats présents sur les première et deuxième pages de résultats de Google ne sont jamais cliqués par les internautes.
Dans cette même étude, on apprend également que le taux moyen de clics pour le premier résultat est autour de 21%, le deuxième autour de 10%, le troisième autour de 7.5 % et ce pourcentage ne cesse de baisser pour atteindre 3% au huitième résultat.
La recherche vocale est à la mode et nous vous en parlions dans le dernier numéro. Google vient d’ajouter 30 nouvelles langues à son moteur de recherche vocal pour arriver à 119 langues, rendant ainsi cette technologie encore plus accessible à travers le monde. Et quand on voit le peu de taux de clics sur les résultats de recherche lors d’une recherche Google, il y a fort à parier que la recherche vocale va continuer de progresser puisque les internautes semblent parfaitement se contenter d’une unique réponse.
Toujours chez Google, on apprenait qu’une nouvelle mise à jour de son app sur mobile aide les internautes à trouver des contenus similaires sans avoir à retourner dans le moteur. Ainsi, lorsque l’internaute se trouve sur une page Web au sein de l’app, il se verra suggérer des contenus similaires par Google en bas de page. Il semblerait à première vue que ces suggestions soient basées sur les pages que les internautes ont consultées après avoir consulté cette même page. Cette fonctionnalité n’est disponible qu’aux Etats-Unis pour le moment mais pourrait s’étendre à d’autres langues et d’autres pays.
De son côté, Bing a annoncé des améliorations pour ses fonctionnalités de recherche d’images. Les internautes pouvaient d’ores et déjà effectuer des recherches sur des objets présents au sein d’une image. Mais il fallait pour cela qu’ils entourent manuellement l’objet en question dans l’image. Désormais, le moteur est capable de détecter automatiquement les objets au sein des images et l’internaute n’aura plus qu’à cliquer sur la petite icône pour lancer la recherche sur des objets similaires. Pour l’instant cela ne fonctionne que sur la version desktop et non mobile.
Dans un précédent article de BASES (« Facebook, incontournable pour la veille et la recherche : fantasme ou réalité ? » - N°344 - Janvier 2017), nous avions évoqué plusieurs outils pour effectuer des recherches avancées sur Facebook. Nous avons récemment eu l’occasion de découvrir un nouvel outil : AFS (Advanced Facebook Search) qui se présente sous la forme d’une extension Chrome.
Chez LinkedIn, les utilisateurs peuvent désormais charger des vidéos sur leur page.
Toujours du côté de LinkedIn, on apprenait également qu’un juge fédéral de San Francisco avait ordonné à LinkedIn d’arrêter de bloquer la société Hiq Labs qui récupérait (avec un procédé de scraping) des données sur les profils LinkedIn dans le cadre son activité. Même si LinkedIn a fait savoir qu’il ne se plierait probablement pas à cette décision, c’est à notre connaissance une première.
Ces dernières années, les grandes plateformes de médias sociaux comme Twitter, Facebook ou LinkedIn, ont restreint au maximum l’accès à leurs services par des applications tierces. Les plateformes de veille ne peuvent ainsi plus surveiller LinkedIn et sont très limitées sur Facebook. Si la tendance venait à s’inverser, il pourrait s’agir d’une bonne nouvelle pour les professionnels de la veille.
Netvibes, qui d’un simple lecteur de flux RSS, s’est transformé en quelques années en une plateforme de veille onéreuse, vient d’annoncer que ses utilisateurs pourraient désormais bénéficier d’un « personal corpus ». Fini, le corpus de sources opaques sur lequel l’utilisateur n’a pas la main, il peut désormais ajouter et retirer des sources rapidement et facilement.
Même si d’autres outils le font depuis des années, cette initiative est intéressante car c’est généralement le point faible des plateformes de social media monitoring qui surveillent un panel de sources très large mais complètement opaque et non paramétrable par les utilisateurs.
Pour surveiller Twitter, il existe de multiples solutions allant de la simple création de flux RSS aux grosses plateformes de veille multisources. Nous avons récemment découvert un nouvel acteur sur le marché : Twilert (https://www.twilert.com), un outil de veille qui se focalise exclusivement sur Twitter. Nous n’avons pas encore eu l’occasion de le tester mais l’outil propose un essai gratuit de 30 jours. A tester, donc !
Dans la boîte à outil du veilleur, on trouve souvent Google Translate. Bonne nouvelle, pour la traduction, une alternative efficace est désormais possible : DeepL qui indique être « trois fois plus performant que Google ». Derrière cette initiative, on retrouve les fondateurs du dictionnaire en ligne Linguee.
Et d’après les premiers retours et tests réalisés par des journalistes et sites spécialisés (Le Monde et Numerama), il semble bien que l’outil soit très prometteur...
OPEN ACCESS • Accès à la littérature scientifique : les voies de l’« open access »
SERVEURS • Questel reprend les acquisitions
INFORMATION SCIENTIFIQUE
• Scopus aide gratuitement à identifier les auteurs et leurs publications
MÉTHODOLOGIE • Comment retrouver de vieux articles de presse ?
AGRÉGATEURS DE PRESSE • La recherche en…tique
RETOUR D’EXPÉRIENCE
• Fanny Glassier, documentaliste à KEDGE Business School : le défi de la formation
OUTILS • TERMIUM Plus, une source de terminologie d'origine canadienne
EN BREF • L’actualité de l’été
Déjà abonné ? Connectez-vous...