Le développement de l’intelligence artificielle fait évoluer le métier des professionnels de l’information au quotidien et nous nous en faisons régulièrement l’écho dans BASES.
S’il y a bien évidemment beaucoup de tâches qu’on ne peut pas et que l’on ne doit pas déléguer à l’IA, elle apporte sur certains aspects une réelle valeur ajoutée aux pratiques et aux outils professionnels.
Nous avons choisi ici de nous intéresser aux outils de résumé automatique, qui génèrent automatiquement des résumés à partir d’un ou plusieurs documents tels qu’un article scientifique, article de presse, rapport, thèse, page Web, etc.
Même si les résumés automatiques existent depuis des décennies, cette application du traitement automatique du langage (TAL) continue d’être abondamment traitée dans la littérature scientifique et intéresse aujourd’hui plus que jamais les grands acteurs du Web.
Grâce aux avancées de l’IA et notamment du NLP (Natural Language Processing) et du machine learning, on voit ainsi émerger toute une nouvelle génération d’outils, notamment thématiques, bien plus performants que leurs prédécesseurs et capables d’assister le professionnel de l’information dans ses veilles et recherches d’information.
Déjà abonné ? Connectez-vous...
Comment optimiser sa veille ?
Le RSS représente toujours une solution peu coûteuse pour réaliser des veilles de qualité mais détecter des flux RSS relève toujours un peu plus de la chasse au trésor car les sites et outils les mettent de moins en moins en évidence.
La dernière mise à jour de Firefox (version 64.0) a supprimé la capacité qu’avait Firefox de détecter les fils RSS cachés et de s’y abonner. Heureusement, il existe d’autres solutions. Sur ce sujet, on conseillera la lecture de l’article de Serge Courrier sur son blog RSS Circus qui présente différentes méthodes et outils pour repérer les flux RSS cachés (https://huit.re/rss-caches).
Déjà abonné ? Connectez-vous...
Dans le numéro 294 de BASES daté de juin 2012, nous avions eu l’occasion de consacrer un article à un produit très original baptisé darts-ip qui réunissait les décisions concernant les litiges en matière de propriété intellectuelle.
Cette banque de données offrait de la jurisprudence en matière de brevets, marques, dessins et modèles ainsi que noms de domaine. Un logiciel spécifique adapté à la matière avait également été développé permettant d’effectuer un grand nombre de recherches spécifiques.
Lire aussi : Clarivate Analytics rachète darts-ip
Initiée au début des années 2000 par l’avocat belge Jean-Jo Evrard, spécialiste des conflits en matière de propriété intellectuelle qui collectait des informations sur les jugements rendus, la société darts-ip fut créée en 2006 et prit rapidement son envol.
En 2012, date de notre précédent article, la base, qui couvrait initialement la Belgique, s’était étendue à la plupart des pays européens et proposait environ 500 000 décisions.
L’objectif était d’élargir progressivement au monde entier ce qui, aujourd’hui est quasiment fait, puisque plus de 4,16 millions de litiges sont recensés.
Par voie de conséquence, les contrats régionaux qui étaient alors proposés, par exemple limités à l’Europe tendent à laisser la place à des contrats à couverture mondiale, ce qui, au moins pour les brevets, a tout son sens. En effet, les grandes banques de données brevet ont une couverture mondiale (plus d’une centaine d’offices) et, d’autre part, tant les technologies que les citations n’ont pas de limites géographiques.
Au départ société belge, darts-ip est maintenant une société internationale implantée dans 137 pays suivant 3 738 cours. Cependant la direction, la stratégie et les finances restent en Belgique.
Une fois que darts-ip a considéré avoir atteint une couverture mondiale suffisante, il a défini une stratégie de partenariats avec des grands serveurs de brevets et de marques. Cette stratégie consiste à mettre gratuitement à disposition des serveurs des informations de premier niveau, à savoir l’existence pour un brevet ou une marque donnée, de litiges anciens ou en cours ce qui constitue une information importante ; les informations complètes n’étant accessibles qu’aux utilisateurs ayant à la fois un contrat avec le serveur et un autre avec darts-ip.
Avec ce partenariat, tout le monde y gagne puisque l’avantage pour le serveur est d’enrichir son offre avec une information complémentaire gratuite pour tous ses clients et pour les clients des deux plateformes, de proposer des analyses mêlant les deux contenus.
Pour darts-ip, ce partenariat est un formidable outil de promotion quasiment gratuit permettant de récupérer de nouveaux clients sensibilisés aux litiges en PI qui sont loin d’être sans effet sur l’évaluation d’un brevet ou d’une marque ou de la politique d’une société dans ce domaine.
Pour les clients communs, la plupart des informations de darts-ip sont disponibles sur le serveur partenaire, seuls les PDF et les analyses juridiques détaillées ne sont disponibles que sur la plateforme darts-ip accessible par un simple lien depuis le serveur.
Par ailleurs, darts-ip propose des rapports à la demande qui font l’objet d’un devis.
Enfin, les serveurs sont incités à développer des applications mêlant leurs propres informations avec celles de darts-ip, ce qui est prometteur d'innovations.
Déjà abonné ? Connectez-vous...
TENDANCES
La recherche de citations et de références boostée par l’IA et les « open citations »
BASE DE DONNÉES
TOTAL MATERIA : une banque de données matériaux très complète
BRÈVES DE VEILLE
Les opérateurs méconnus de LinkedIn et les nouvelles limitations
Déjà abonné ? Connectez-vous...
La recherche de citations et de références représente une autre façon de rechercher de l’information, complémentaire aux traditionnelles recherches booléennes.
Cette recherche recouvre deux aspects :
Elle permet tout d’abord de rechercher et visualiser ce qu’un document a référencé et cité dans son contenu. Il peut s’agir aussi bien des références bibliographiques d’un article scientifique que de simples mentions d’un article ou document au sein d’un article de presse ou de blog. On est ici dans une forme de sérendipité où l’on navigue de liens hypertextes en liens hypertextes. Et lorsqu’un document cite ses sources, celles-ci ont toutes les chances d’être reliées au sujet qui nous intéresse.
Mais il s’agit aussi de repérer qui a, depuis cette publication, utilisé et cité cet article initial. On pensera ici surtout à certains outils de recherche académiques et scientifiques qui listent sous chaque article le nombre de fois où il a été cité et un lien vers ces documents. Il pourra s’agir également de repérer les documents et pages pointant vers un article de presse, un billet de blog ou mentionnant une étude, etc.
Elle permet de s’extraire des mots-clés et des langues et fait souvent émerger des résultats pertinents et notamment dans des disciplines inattendues ou supports méconnus que l’on n’aurait pu identifier par d’autres méthodes.
Et dans un contexte de surinformation où les moteurs de recherche Web fournissent de moins en moins de résultats, elle vient en complément des autres modes de recherche et permet de tendre vers plus d’exhaustivité afin ne pas rater de « pépite ».
Elle permet finalement de tirer parti de l’intelligence humaine et collective, celle des chercheurs, journalistes, internautes, souvent experts dans leur domaine, qui ont déjà identifié des ressources pertinentes et ciblées et les mentionnent dans leurs contenus.
Si ce mode de recherche dispose d’un nom bien défini en anglais en l’occurrence citations searching, on constate qu’il n’existe pas d’appellation officielle et uniforme en français bien qu’elle se pratique depuis des décennies.
Nous choisirons donc ici le terme « recherche de références » pour désigner la recherche sur ce qu’un document a référencé et cité dans son contenu et « recherche de citations » lorsqu’il s’agit de voir qui a repris et cité cet article initial.
Cette forme de recherche est aujourd’hui surtout développée et formalisée dans un contexte de recherche scientifique et académique, principalement parce que la structure des contenus s’y prête. Un article scientifique dispose toujours d’une liste de références bien structurée et clairement identifiable et le nombre de fois où un article est cité est un facteur important en terme de visibilité. Néanmoins, on aurait tort de ne pas l’exploiter dans d’autres contextes (recherche presse par exemple) même si cela va s’avérer plus complexe car les citations sont ici directement mêlés au texte et il n’existe aucune règle ou norme.
Si cette forme de recherche est ancestrale - on pouvait déjà tirer parti des références bibliographiques avant même l’arrivée des banques de données et d’Internet -, elle a été rendue plus simple et intuitive avec le développement des liens hypertextes dès les années 90.
Mais elle bénéficie aujourd’hui d’un nouveau souffle grâce au développement du mouvement de l’Open (open access, open science, open data, etc.) et les progrès de l’intelligence artificielle. C’est ainsi que l’on voit se développer de nouvelles fonctionnalités et outils dédiés, principalement dans le domaine scientifique et académique.
Déjà abonné ? Connectez-vous...
LinkedIn est un outil de recherche puissant pour tout ce qui a trait à la recherche sur les personnes mais également depuis peu pour le contenu.
Irina Shamaeva, auteur du blog https://booleanstrings.com spécialisé dans la recherche d’information et le sourcing appliqué aux ressources humaines et au recrutement, a publié un intéressant récapitulatif des opérateurs de recherche existants sur LinkedIn, parmi lesquels certains fonctionnent mais ne sont même pas documentés par LinkedIn (voir figure 1 - Pour abonnés uniquement).
Déjà abonné ? Connectez-vous...
L’idée de banque de données matériaux réunissant le plus grand nombre possible de propriétés (et elles sont très nombreuses) de tous les matériaux (et ils sont encore beaucoup plus nombreux, même si on se limite à certaines catégories comme les alliages métalliques) est un vieux rêve d’ingénieur.
Bien entendu, la banque de données idéale devait permettre de faire des recherches « dans les deux sens » c’est-à-dire d’obtenir instantanément les propriétés d’un matériau donné et à l’inverse d’identifier des matériaux ayant une certaine combinaison de propriétés et, si possible, des matériaux aux propriétés proches.
Plus récemment, compte-tenu des évolutions des logiciels de conception industrielle, est apparu l’intérêt de pouvoir transférer directement certaines données vers des logiciels d’IAO/ CAO.
Les premières réalisations de banques de données matériaux datent d’il y a plusieurs dizaines d’années et se sont développées à mesure de l’avancement des technologies informatiques, en particulier les tailles des mémoires et les capacités de calcul.
Pour illustrer que cet intérêt n’est vraiment pas nouveau, on rappellera que la Commission européenne avait créé un programme baptisé « 1984-1988 Awarness programme on Materials databases » d’aide à la réalisation et à la diffusion des banques de données matériaux à partir d’une sélection d’onze d’entre elles parmi lesquelles trois françaises dont l’une, Thermodata, existe encore aujourd’hui. FLA Consultants avait été chargé, dans le cadre de ce programme, des opérations de sensibilisation à ce type de banques de données (avec démonstrations dans les 12 pays, à l’époque, de l’Union Européenne et édition d’une brochure de présentation dans les 9 langues de ces pays).
Sensiblement au même moment, en décembre 1984, a été créée l’association CODATA France avec l’objectif de « promouvoir et d’encourager la production, la validation et la diffusion de données numériques fiables ayant trait à la science et à la technologie »
CODATA France s’était associée avec la DBMIST du Ministère de l’éducation nationale de la jeunesse et des sports pour publier en 1989 le Guide des banques de données factuelles françaises sur les matériaux. Ce guide a été édité par FLA Consultants.
Il présentait 40 banques de données produites par 29 organismes.
Seules certaines d’entre elles existent toujours.
Les raisons de la disparition de beaucoup d’entre elles peuvent tenir à la fin du financement d’un projet, à des changements de politiques d’un organisme, à des difficultés techniques devenues insurmontables, comme par exemple l’obsolescence d’un logiciel obligeant à tout recommencer ou… à la retraite du concepteur/animateur de certaines banques de données.
Le serveur STN, pour sa part, a offert pendant un temps un accès au Materials Property Data Network (MPD network) composé d’une quinzaine de banques de données.
Quoi qu’il en soit, le besoin de ce type de données ne s’est pas éteint après une première série d’initiatives.
Déjà abonné ? Connectez-vous...
I-EXPO 2019
• Quelles pratiques de veille dans les entreprises françaises en 2019 ?
• Les facteurs de succès de l’IA au service de la veille
• Quel rôle pour les pros de l’info vis à vis de la désinformation ?
• Utilisateurs et experts métiers : l’humain au cœur du dispositif de veille
• A l’heure des livrables augmentés
• De nouvelles formes de veille au service de l’image des entreprises
BREVETS
• Pat-INFORMED : une base de données de brevets biomédicaux
Déjà abonné ? Connectez-vous...
Le salon i-expo, le rendez-vous annuel de la veille et de la recherche d’information, vient de fermer ses portes.
L’occasion pour nous de faire le point sur les pratiques de veille et de recherche d’information des entreprises françaises en 2019, à partir des nombreux témoignages et interventions expertes et opérationnelles proposés lors des différentes tables-rondes.
Comme l’année dernière, le salon était organisé conjointement avec Documation, le Data Intelligence Forum, eLearning expo, Digital Workplace et Solutions Ressources Humaines, ce qui créait une fois de plus une synergie intéressante.
Il est en effet aujourd’hui impossible d’envisager la recherche d’information et la veille comme des entités complètement autonomes et en silos. Elles se retrouvent partout, à tous les niveaux de l’entreprise et font de plus en plus appel aux méthodes et outils de disciplines connexes : marketing, SEO (Search Engine Optimization), e-learning, communication, etc.
Lire aussi :
Les facteurs de succès de l’IA au service de la veille
Quel rôle pour les pros de l’info vis à vis de la désinformation ?
Utilisateurs et experts métiers : l’humain au cœur du dispositif de veille
A l’heure des livrables augmentés
De nouvelles formes de veille au service de l’image des entreprises
Déjà abonné ? Connectez-vous...
Impossible aujourd’hui d’occulter la question de l’intelligence artificielle en lien avec la veille et la recherche d’information. Deux conférences d’i-expo portaient d’ailleurs exclusivement sur cette thématique et l’on retrouvait cette question en filigrane de toutes les autres tables-rondes.
Si pour certains professionnels, elle peut être perçue comme une menace, avec des machines et algorithmes capables de remplacer les pros de l’information, pour la majorité des experts présents lors du salon, l’IA est considérée comme une alliée au service de la veille et du veilleur « augmenté », capable d’automatiser certaines tâches chronophages et à faible valeur ajoutée.
Lire aussi :
Quelles pratiques de veille dans les entreprises françaises en 2019 ?
Quel rôle pour les pros de l’info vis à vis de la désinformation ?
Utilisateurs et experts métiers : l’humain au cœur du dispositif de veille
A l’heure des livrables augmentés
De nouvelles formes de veille au service de l’image des entreprises
Comme nous avons pu le voir dans le précédent numéro de BASES, les outils de recherche et de veille professionnels (agrégateurs de presse, bases de données, plateformes de veille, etc.) ont de plus en plus recours à l’IA dans leurs produits.
Mais nous avons pu découvrir également à l’occasion de ces trois jours que des services d’information et de veille au sein des entreprises développaient en interne leurs propres outils à base d’IA pour optimiser et enrichir leurs processus de veille et de recherche.
Parmi les exemples cités lors des différentes conférences sur la place de l’IA dans les produits du marché ou développés en interne, on retrouvait donc l’utilisation classique de l’IA pour :
Et quels que soient les exemples et témoignages fournis par les différents intervenants, on retrouvait toujours cette nécessité d’une supervision humaine finale car les résultats fournis par la machine ou l’algorithme sont généralement imparfaits et contiennent toujours une part d’erreur.
Tous se sont accordés à dire qu’on ne peut prendre pour argent comptant les résultats et analyses fournies par une machine.
D’où le besoin de transparence, de documentation, de justification et de contrôle de toute solution à base d’intelligence artificielle dans les entreprises.
C’est ainsi qu’Olivier Stoband, Directeur de Projet Conformité Digital Innovation Office à la Société Générale indiquait que dans le cadre du projet de développement d’un algorithme de détection des « negative news » en interne, il était dans l’obligation de documenter et justifier dans les détails le fonctionnement de l’algorithme et de ses choix auprès des autorités régulatrices mais également de toute sa hiérarchie.
Déjà abonné ? Connectez-vous...