Depuis plus d’un an maintenant, l’intelligence artificielle (IA) est au cœur de l’actualité et des discussions professionnelles. Mais s’il est beaucoup question d’IA et de machine learning, appliqués aux moteurs de recherche grand public, aux outils de traduction ou encore aux outils de veille, elle se fait plus discrète pour tout ce qui a trait à l’information scientifique et technique et les brevets. Et pourtant, elle y est bien présente et mérite qu’on s’y intéresse.
Lors de la dernière réunion annuelle du CFIB, le Club Francophone de l’Information Brevet, elle a d’ailleurs été au centre des discussions. L’une des présentations consacrée à l’intelligence artificielle et la propriété intellectuelle a ensuite fait l’objet d’un article très intéressant dans la lettre du CFIB.
Rappelons que le CFIB (Club Francophone de l’Information Brevet) réunit environ 160 membres tous pratiquant effectivement des recherches d’information brevet, à l’exception donc des vendeurs de solutions (serveurs, logiciels, etc.), afin de laisser la parole libre. Les personnes intéressées par une adhésion doivent la soumettre au bureau de l’association (https://lecfib.net) qui valident ou non ces demandes.
Le marché de l’IA devrait passer de 8 milliards $ en 2016 à plus de 47 milliards $ en 2020. Les investissements dans l’IA ont augmenté de plus de 300% en 2017 par rapport à l’année précédente. Des machines intelligentes, des algorithmes IA envahissent notre quotidien.
Aussi, la réglementation des activités liées à l’intelligence artificielle est devenue un enjeu majeur de politique publique. Les juristes, les décideurs mais également les entreprises doivent maîtriser les principaux défis juridiques de l’IA pour être bien positionnés dans cette révolution, parce que les effets perturbateurs de l’IA se feront sentir très vite sur les modèles d’affaires traditionnels et en particulier sur la propriété intellectuelle.
En effet, l’IA défie les notions juridiques les plus traditionnelles en matière de propriété intellectuelle, telles que la «copie», l’«originalité», le «créateur», l’«auteur» ou l’«inventivité».
Il n’est question ici que d’exposer les problèmes qui se posent, pas d’apporter des réponses à des questions qui font encore débat chez les juristes eux-mêmes.
Un robot peut faire l’objet de plusieurs protections : droit d’auteur, droit de modèle, brevet… Mais qu’en est-il de l’oeuvre du robot lui-même ?
Vis-à-vis du droit d’auteur, le robot a-t-il une personnalité et fait-il des choix libres et créatifs ? Vis-à-vis des bases de données, le robot est-il le producteur, en prend-il l’initiative, assume-t-il les risques de l’investissement ? Vis-à-vis du droit des brevets, que veut dire l’inventivité d’une solution technique quand elle est apportée par un robot ?
Voilà quelques-unes des questions qui se posent.
Déjà abonné ? Connectez-vous...
Pas toujours facile de suivre toutes les évolutions de Google quand on sait par exemple qu’il modifie son algorithme plus de 1 600 fois par an. Heureusement, toutes ces modifications ne revêtent pas la même importance et toutes n’ont pas d’impact sur la recherche d’information professionnelle.
Toujours est-il qu’en ce mois de septembre, les nouveautés sont nombreuses et méritent d’être signalées.
On commencera donc par le lancement d’un nouveau moteur dédié aux données publiques appelé « Google Dataset Search » accessible à l’adresse suivante : https://toolbox.google.com/datasetsearch.
On rappellera qu’un dataset ou jeu de données en français est « un ensemble de données où chaque valeur est associée à une variable et un commentaire. Ces données sont stockées dans des tables qui contiennent des colonnes et des lignes comme dans un tableau Excel. Ainsi, une base de données, ou database, est constituée de plusieurs jeux de données, structurés afin d’être exploitables par un programme informatique. » (source : www.matlo.com ).
Depuis le développement de l’Open Data, de nombreux organismes publics mettent à disposition des jeux de données librement accessibles tels que les horaires ou la ponctualité des trains, l’emplacement des lampadaires dans une ville, le Cadastre, la liste des organismes de formation, etc. Et du côté de l’information scientifique et technique, on voit également se développer la mise à disposition des données de la recherche par les chercheurs sous la forme de jeux de données accessibles sur le Web.
Les premiers retours d’experts et blogueurs sur le produit sont plutôt mitigés et pointent la faiblesse et l’absence de fonctionnalités de recherche dignes de ce nom mais également le fait que le moteur est très loin de donner accès à l’ensemble des jeux de données éparpillés sur le Web.
Voir aussi notre dossier spécial : Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Concernant le moteur Web, on a ainsi pu apprendre que :
Google a également décidé de revoir l’interface et les fonctionnalités de Google Images en proposant :
Comme Google, il a annoncé des améliorations à son moteur d’images Bing Visual Search :
Seul problème, on ne sait pas encore si cela sera accessible à tout le monde où bien uniquement aux internautes américains.
Enfin, Microsoft a annoncé vouloir unifier ses outils de recherche sur ses différents produits et services.
Microsoft Search deviendra l’outil de recherche principal pour Windows, Office et Bing. Les utilisateurs pourront donc obtenir des résultats Web (venant de Bing) mais également des résultats internes et locaux liés aux applications et services de Microsoft auxquels ils ont accès. Et comme on sait que la veille et la recherche d’information nécessitent bien souvent de combiner de l’information externe et interne, on suivra donc ces évolutions avec intérêt même si elle ne sont limitées qu’aux produits Microsoft...
La recherche d’articles de presse est un exercice classique pour les professionnels de l’information.
Pour autant, s’il existe de multiples outils et méthodes pour retrouver en ligne le contenu textuel d’articles parus dans des revues et journaux papier, cela s’avère nettement plus compliqué lorsque l’on souhaite retrouver les articles avec leur mise en page originale.
Bien souvent, lorsque l’on effectue des recherches dans la presse, seul le fond et le contenu ont de l’importance. La forme n’est que très secondaire.
Cependant, il existe des cas où il est préférable et parfois même requis de fournir l’article dans son format original :
Déjà abonné ? Connectez-vous...
CAS PRATIQUE
• Recherche d’information académique : enfin une comparaison concrète entre gratuit et payant
IC-SDV 2018
• Le premier IC-SDV à Nice
Déjà abonné ? Connectez-vous...
Les outils de recherche scientifiques et académiques gratuits, qui permettent de rechercher principalement des articles scientifiques mais également des monographies, compte-rendus de conférences ou encore thèses sont en pleine expansion.
Depuis le début de l’année, on a déjà pu voir apparaître deux nouveaux venus assez similaires, Dimensions et 1findr. Et à l’heure où nous écrivons ces lignes, les créateurs d’Unpaywall, l’extension de navigateur qui permet de savoir si un article est disponible ou non en libre accès (voir BASES n 350 – juillet/août 2017) vient d’annoncer le lancement prochain d’un moteur dopé à l’intelligence artificielle permettant de découvrir plus de 20 millions d’articles scientifiques en libre accès appelé Get the Research (http://gettheresearch.org/).
Et c’est sans compter sur Google Scholar qui est un quasi-réflexe pour bon nombre de chercheurs et qui existe quant à lui depuis 2004.
La plupart de ces outils disposent de corpus dont le volume est tout sauf ridicule. Google Scholar indexerait même, d’après les estimations que nous avons détaillées dans notre précédent numéro de BASES (N 360 – juin 2018), un volume de documents du même ordre de grandeur que ce que propose Proquest Dialog ou STN (chiffres vérifiés dans ce cas).
Mais peut-on pour autant confier sa recherche bibliographique ou sa revue de littérature à ces seuls outils gratuits ?
Dans ce même numéro de BASES, nous avions regardé de près la littérature comparant les outils de recherche scientifiques et académiques payants comme les grands serveurs et bases de données et les outils de recherche gratuits comme Google Scholar, 1findr, Dimensions, etc.
On constatait alors que les comparaisons réalisées par les auteurs de ces articles tournaient pratiquement toujours autour du nombre d’articles et de la taille des corpus. Mais un élément crucial, les fonctionnalités de recherche et la capacité à construire des requêtes sophistiquées était systématiquement occulté.
Nous avons donc choisi de réaliser nos propres tests sur deux sujets distincts afin de voir ce qu’il en retournait : le premier nécessitant la création d’une requête un minimum élaborée, couvrant plusieurs disciplines et un second beaucoup plus simple sur une seule thématique.
Déjà abonné ? Connectez-vous...
La première édition de IC-SDV née de la fusion des manifestations ICIC et II-SDV organisées par Christoph Haxel vient d’avoir lieu à Nice, incontestablement plus facile d’accès qu’Heidelberg, mais peu accueillante.
On a retrouvé le format et les caractéristiques des deux manifestations qui avaient fusionné avec légèrement plus de monde, ce qui est logique. Nous avons également remarqué une plus grande fluidité dans les échanges entre les congressistes à leur grande satisfaction.
On pouvait craindre que, comme l’intelligence artificielle est à la mode, la manifestation serait centrée sur l’IA. Ce ne fut heureusement pas le cas même si ce concept était souvent présent en filigrane dans les différentes thématiques abordées lors du congrès. Par ailleurs il y a suffisamment d’autres manifestations qui lui sont spécifiquement consacrées.
Comme à chaque édition et comme dans toute conférence, le choix des conférenciers n’était pas parfait, certains conférenciers étaient excellents et passionnants, d’autres simplement banals faisant l’historique de choses archi-connues ou tout simplement incompréhensibles.
Mais le comité de sélection des conférences a encore quelques progrès à faire car INNOVATIONQ Plus n’avait qu’un stand vendu avec seulement une présentation de produit de 10 mn alors qu’il s’agit d’une vraie innovation qui aurait mérité une conférence plénière.
Nous avons présenté en détail ce produit dans le numéro 358 de BASES (Avril 2018). Rappelons simplement qu’il s’agit d’une joint-venture entre ip.com et IEEE qui propose de rechercher à la fois dans les brevets et la littérature dans les domaines de l’électricité et de l’électronique au sens large.
La première conférence à éveiller notre intérêt a été celle présentée par Patrick Fiévet, de l’Organisation mondiale de la propriété intellectuelle (OMPI) et Jacques Guyot de la Fondation Olanto, une fondation suisse sans but lucratif basée à Genève. L’objectif d’Olanto est de créer et de diffuser des logiciels gratuits dans les domaines de la traduction assistée par ordinateur, de la traduction machine et de la recherche multilingues et d’autres domaines liés au langage.
L’OMPI s’était intéressée dès 2003 à la création d’un système IPCCAT pour aider les utilisateurs à trouver les bonnes classifications d’un brevet mais aussi d’aider les petits offices à mieux classer les brevets et, d’une façon plus générale, d’automatiser ce type de classement.
De 2004 à 2009, l’approche a consisté à développer un système s’appuyant sur des outils puissants de machine learning entraînés par l’analyse de documents classés manuellement.
Cette approche était néanmoins limitée par la puissance informatique disponible et la couverture des niveaux les plus fins de la CIB par les collections d’entraînement disponibles.
En 2017, l’OMPI a décidé de reprendre la recherche sur IPCCAT visant une catégorisation de l’ensemble de la CIB au niveau des sous-groupes au nombre de 72 981 dans la version 2017.01 de la CIB. Précisons qu’un sous-groupe se présente sous la forme H013 3/02 tandis que le groupe principal correspondant à cet exemple s’écrit H013 3/00.
Déjà abonné ? Connectez-vous...
DOSSIER SPECIAL INFORMATION SCIENTIFIQUE ET ACADÉMIQUE
• Google Scholar est-il un véritable outil de recherche scientifique ?
BILLET D’HUMEUR
• La perversité de Google Scholar
PANORAMA
• Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Déjà abonné ? Connectez-vous...
Quand il s’agit d’effectuer des recherches bibliographiques ou de réaliser une revue de littérature, Google Scholar apparaît généralement en tête de liste chez les chercheurs, universitaires, étudiants et même certains professionnels de l’information.
Une réalité qui est particulièrement surprenante, la rigueur de la démarche de recherche scientifique semblant a priori incompatible avec le mode de recherche très pauvre, proposé par Google Scholar dans des amas d’informations non structurées, et dont on ne connaît pas les contours.
Lire aussi dans ce dossier :
La perversité de Google Scholar
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Surprenante aussi car les universités, comme les entreprises, avaient déployé, depuis maintenant plusieurs dizaines d’années, des services d’information scientifique et technique de grande qualité. Des services qui ont été souvent décimés mais qui étaient équipés de « vrais » outils : les bases de données spécialisées. Ces bases offraient et offrent toujours, comme le rappellera François Libmann dans son billet « La perversité de Google Scholar » un nombre de références et des possibilités de recherche expertes et structurées, largement supérieurs à celles de Google Scholar.
Une récente enquête sur l’accès des médecins à la documentation électronique menée par la Fédération Francophone de Médecine Polyvalente(FFMP) avec l’aide de la BIU Santé, et dont les résultats ont été présentés en juin 2018 met bien en évidence la prépondérance de Google dans le processus de recherche et d’accès à la littérature scientifique.
A la question sur les méthodes d’accès à la littérature scientifique, 61% des répondants (soit 717 personnes) indiquaient chercher sur Google / Google Scholar, 42% (!) utilisaient des services pirates, tandis que 34% mentionnaient la Bibliothèque Universitaire et 27% les ressources documentaires de l’hôpital.
Une autre enquête menée par la revue Nature en 2014 auprès de 3 000 scientifiques et ingénieurs arrivait sensiblement au même constat avec un peu plus de 60% des répondants qui indiquaient se rendre régulièrement sur Google Scholar.
Si Google Scholar permet d’interroger un corpus toujours plus vaste de ressources scientifiques et académiques et d’accéder en quelques clics au texte intégral d’un nombre important de documents, peut-on aujourd’hui considérer qu’interroger Google Scholar peut suffire pour une veille bibliographique ou une revue de littérature ?
Quelles sont les principales autres ressources multidisciplinaires gratuites et payantes à connaître et leur valeur ajoutée par rapport à Google Scholar ?
Face à l’ampleur du sujet, nous avons choisi de séparer cet article en deux parties :
Déjà abonné ? Connectez-vous...
Le volume important de documents contenus dans Google Scholar fait qu’il est extrêmement rare de ne trouver aucune réponse à n’importe quelle question un tant soit peu scientifique. Parmi ces réponses, le chercheur trouvera bien quelques documents intéressants parmi les premiers de la liste car on serait curieux de savoir combien vont examiner les 1 000 résultats visualisables (c’est la limite).
Ces résultats trouvés à partir d’une ou plusieurs recherches permettent le plus souvent de tirer quelques fils et de trouver quelques documents présentant un intérêt.
Et c’est là toute la perversité du système. Car l’accès à Google Scholar est gratuit et son contenu un des plus importants disponibles.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
C’est clairement une solution de facilité qu’adoptent malheureusement trop de chercheurs qui n’utilisent pas d’autres outils de recherche payants, et même gratuits. Et quand un article référencé dans Google Scholar est payant, on laisse souvent tomber et on part à la recherche d’un article gratuit. On frémit à l’idée que quelques services de R&D limitent leurs recherches bibliographiques à Google Scholar...
En effet, même si le nombre de documents présents dans Google Scholar est très important, la pauvreté des fonctionnalités de recherche rend quasi-impossible la réalisation d’une recherche un peu exhaustive sur un sujet précis.
Si les études comparant Google Scholar avec d’autres services ne manquent pas, on s’étonnera de la méconnaissance de leurs auteurs en matière de serveurs scientifiques.
En effet, toutes les comparaisons sont faites avec Scopus et Web of Science et oublient systématiquement l’existence de serveurs comme STN ou Proquest Dialog, ce dernier existant pourtant depuis 1972.
Déjà abonné ? Connectez-vous...
Il convient maintenant de dresser le portrait des principales ressources généralistes et multidisciplinaires pour la veille et la recherche bibliographiques. Et si nombre d’entre elles sont connues depuis longtemps des professionnels de l’information, nous avons également identifié quelques nouveaux acteurs prometteurs apparus au cours des deux dernières années et dont nous n’avons pas encore eu l’occasion de parler dans BASES.
Nous avons choisi ici de nous intéresser aux grandes ressources généralistes et multidisciplinaires proposant des références ou accès aux articles scientifiques et académiques. Sont donc exclues les ressources spécialisées sur une discipline en particulier ou sur certains types de documents qui pourront faire l’objet d’autres articles comme les thèses, mémoires, ouvrages, etc.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
La perversité de Google Scholar
Une grande partie des ressources présentées dans cet article offrent une recherche gratuite et permettent d’accéder librement aux références des articles mais pas nécessairement au texte intégral. Ces outils gratuits disposent généralement de fonctionnalités de recherche simples contrairement aux outils de recherche payants et il existe de nombreux recouvrements entre ces différentes ressources gratuites.
Nous avons fait le choix de nous focaliser ici sur les contenus proposés par ces différentes ressources et non les fonctionnalités qui seront abordées et testées dans le prochain numéro : Recherche d’information académique : enfin une comparaison concrète entre gratuit et payant.
Au cours de l’année 2018, deux nouvelles plateformes de découvertes et d’accès à la littérature scientifique et académique ont été lancées et méritent qu’on leur accorde un peu d’attention : Dimensionset 1Findr. Si ces deux outils présentent des similarités, ils ont également leurs propres singularités.
Dimensions a été lancé en janvier 2018 par la société Digital Science et permet de rechercher parmi plus de 95 millions d’articles (soit plus que Scopus par exemple) auxquels s’ajoutent des citations, essais cliniques et des brevets (voir figure 1. ci-dessous - Réservé aux abonnés).
Déjà abonné ? Connectez-vous...