Lire un no sur 1 page - Bases & Netsources

Les résumés automatiques de nouvelle génération au service de la veille

Carole Tisserand-Barthole

Bases no

370

publié en

2019.05

1379

Acheter ce no

Tags

Les résumés automatiques de nouvelle génération au service ... Image 1

Le développement de l’intelligence artificielle fait évoluer le métier des professionnels de l’information au quotidien et nous nous en faisons régulièrement l’écho dans BASES.

S’il y a bien évidemment beaucoup de tâches qu’on ne peut pas et que l’on ne doit pas déléguer à l’IA, elle apporte sur certains aspects une réelle valeur ajoutée aux pratiques et aux outils professionnels.

Nous avons choisi ici de nous intéresser aux outils de résumé automatique, qui génèrent automatiquement des résumés à partir d’un ou plusieurs documents tels qu’un article scientifique, article de presse, rapport, thèse, page Web, etc.

Même si les résumés automatiques existent depuis des décennies, cette application du traitement automatique du langage (TAL) continue d’être abondamment traitée dans la littérature scientifique et intéresse aujourd’hui plus que jamais les grands acteurs du Web.

Grâce aux avancées de l’IA et notamment du NLP (Natural Language Processing) et du machine learning, on voit ainsi émerger toute une nouvelle génération d’outils, notamment thématiques, bien plus performants que leurs prédécesseurs et capables d’assister le professionnel de l’information dans ses veilles et recherches d’information.

Quelles sont les dernières tendances en matière de résumé automatique ? Comment utiliser ces outils de résumé automatique dans un contexte de recherche d’information et de veille ? Quelle est la qualité des résumés fournis et quelle est leur valeur ajoutée ? Et quels sont aujourd’hui les outils présents sur le marché ?

Déjà abonné ? Connectez-vous...

Connexion

Les outils de la veille : entre découvertes et déceptions

Carole Tisserand-Barthole

Bases no

370

publié en

2019.05

1410

Acheter ce no

Tags

outils de veille | flux RSS

Les outils de la veille : entre découvertes et déceptions Image 1

Comment optimiser sa veille ?

Le RSS représente toujours une solution peu coûteuse pour réaliser des veilles de qualité mais détecter des flux RSS relève toujours un peu plus de la chasse au trésor car les sites et outils les mettent de moins en moins en évidence.

La dernière mise à jour de Firefox (version 64.0) a supprimé la capacité qu’avait Firefox de détecter les fils RSS cachés et de s’y abonner. Heureusement, il existe d’autres solutions. Sur ce sujet, on conseillera la lecture de l’article de Serge Courrier sur son blog RSS Circus qui présente différentes méthodes et outils pour repérer les flux RSS cachés (https://huit.re/rss-caches).

Pour optimiser sa veille avec des outils liés au RSS ou des outils de veille plus classiques (surveillance de page par exemple), nous avons repéré récemment plusieurs outils potentiellement intéressants.

Déjà abonné ? Connectez-vous...

Connexion

Contentieux de brevets et marques : darts-ip amorce un virage stratégique

François Libmann

Bases no

370

publié en

2019.05

2912

Acheter ce no

Tags

propriété intellectuelle | marques | brevets

Contentieux de brevets et marques : darts-ip amorce un ... Image 1

Dans le numéro 294 de BASES daté de juin 2012, nous avions eu l’occasion de consacrer un article à un produit très original baptisé darts-ip qui réunissait les décisions concernant les litiges en matière de propriété intellectuelle.

Cette banque de données offrait de la jurisprudence en matière de brevets, marques, dessins et modèles ainsi que noms de domaine. Un logiciel spécifique adapté à la matière avait également été développé permettant d’effectuer un grand nombre de recherches spécifiques.

Lire aussi : Clarivate Analytics rachète darts-ip

Un peu d'historique...

Initiée au début des années 2000 par l’avocat belge Jean-Jo Evrard, spécialiste des conflits en matière de propriété intellectuelle qui collectait des informations sur les jugements rendus, la société darts-ip fut créée en 2006 et prit rapidement son envol.

En 2012, date de notre précédent article, la base, qui couvrait initialement la Belgique, s’était étendue à la plupart des pays européens et proposait environ 500 000 décisions.

L’objectif était d’élargir progressivement au monde entier ce qui, aujourd’hui est quasiment fait, puisque plus de 4,16 millions de litiges sont recensés.

Par voie de conséquence, les contrats régionaux qui étaient alors proposés, par exemple limités à l’Europe tendent à laisser la place à des contrats à couverture mondiale, ce qui, au moins pour les brevets, a tout son sens. En effet, les grandes banques de données brevet ont une couverture mondiale (plus d’une centaine d’offices) et, d’autre part, tant les technologies que les citations n’ont pas de limites géographiques.

darts-ip une société internationale

Au départ société belge, darts-ip est maintenant une société internationale implantée dans 137 pays suivant 3 738 cours. Cependant la direction, la stratégie et les finances restent en Belgique.

Une fois que darts-ip a considéré avoir atteint une couverture mondiale suffisante, il a défini une stratégie de partenariats avec des grands serveurs de brevets et de marques. Cette stratégie consiste à mettre gratuitement à disposition des serveurs des informations de premier niveau, à savoir l’existence pour un brevet ou une marque donnée, de litiges anciens ou en cours ce qui constitue une information importante ; les informations complètes n’étant accessibles qu’aux utilisateurs ayant à la fois un contrat avec le serveur et un autre avec darts-ip.

Avec ce partenariat, tout le monde y gagne puisque l’avantage pour le serveur est d’enrichir son offre avec une information complémentaire gratuite pour tous ses clients et pour les clients des deux plateformes, de proposer des analyses mêlant les deux contenus.

Pour darts-ip, ce partenariat est un formidable outil de promotion quasiment gratuit permettant de récupérer de nouveaux clients sensibilisés aux litiges en PI qui sont loin d’être sans effet sur l’évaluation d’un brevet ou d’une marque ou de la politique d’une société dans ce domaine.

Pour les clients communs, la plupart des informations de darts-ip sont disponibles sur le serveur partenaire, seuls les PDF et les analyses juridiques détaillées ne sont disponibles que sur la plateforme darts-ip accessible par un simple lien depuis le serveur.

Par ailleurs, darts-ip propose des rapports à la demande qui font l’objet d’un devis.

Enfin, les serveurs sont incités à développer des applications mêlant leurs propres informations avec celles de darts-ip, ce qui est prometteur d'innovations.

Déjà abonné ? Connectez-vous...

Connexion

Sommaire avril 2019

Rédaction

Bases no

369

publié en

2019.04

968

Acheter ce no

Tags

sommaire

TENDANCES

La recherche de citations et de références boostée par l’IA et les « open citations »

BASE DE DONNÉES

TOTAL MATERIA : une banque de données matériaux très complète

BRÈVES DE VEILLE

Les opérateurs méconnus de LinkedIn et les nouvelles limitations

Déjà abonné ? Connectez-vous...

Connexion

La recherche de citations et de références boostée par l’IA et les « open citations »

Carole Tisserand-Barthole

Bases no

369

publié en

2019.04

4169

Acheter ce no

Tags

open citation | références bibliographiques | information scientifique et technique | IA

La recherche de citations et de références boostée par l’IA ... Image 1

La recherche de citations et de références représente une autre façon de rechercher de l’information, complémentaire aux traditionnelles recherches booléennes.

Cette recherche recouvre deux aspects :

Elle permet tout d’abord de rechercher et visualiser ce qu’un document a référencé et cité dans son contenu. Il peut s’agir aussi bien des références bibliographiques d’un article scientifique que de simples mentions d’un article ou document au sein d’un article de presse ou de blog. On est ici dans une forme de sérendipité où l’on navigue de liens hypertextes en liens hypertextes. Et lorsqu’un document cite ses sources, celles-ci ont toutes les chances d’être reliées au sujet qui nous intéresse.

Mais il s’agit aussi de repérer qui a, depuis cette publication, utilisé et cité cet article initial. On pensera ici surtout à certains outils de recherche académiques et scientifiques qui listent sous chaque article le nombre de fois où il a été cité et un lien vers ces documents. Il pourra s’agir également de repérer les documents et pages pointant vers un article de presse, un billet de blog ou mentionnant une étude, etc.

La recherche de citations et de références débute donc, non pas par une requête booléenne ou une requête en langage naturel, mais prend sa source à partir d’un document, une page web, un article précis et déjà identifié.

Elle permet de s’extraire des mots-clés et des langues et fait souvent émerger des résultats pertinents et notamment dans des disciplines inattendues ou supports méconnus que l’on n’aurait pu identifier par d’autres méthodes.

Et dans un contexte de surinformation où les moteurs de recherche Web fournissent de moins en moins de résultats, elle vient en complément des autres modes de recherche et permet de tendre vers plus d’exhaustivité afin ne pas rater de « pépite ».

Elle permet finalement de tirer parti de l’intelligence humaine et collective, celle des chercheurs, journalistes, internautes, souvent experts dans leur domaine, qui ont déjà identifié des ressources pertinentes et ciblées et les mentionnent dans leurs contenus.

Si ce mode de recherche dispose d’un nom bien défini en anglais en l’occurrence citations searching, on constate qu’il n’existe pas d’appellation officielle et uniforme en français bien qu’elle se pratique depuis des décennies.

Nous choisirons donc ici le terme « recherche de références » pour désigner la recherche sur ce qu’un document a référencé et cité dans son contenu et « recherche de citations » lorsqu’il s’agit de voir qui a repris et cité cet article initial.

Cette forme de recherche est aujourd’hui surtout développée et formalisée dans un contexte de recherche scientifique et académique, principalement parce que la structure des contenus s’y prête. Un article scientifique dispose toujours d’une liste de références bien structurée et clairement identifiable et le nombre de fois où un article est cité est un facteur important en terme de visibilité. Néanmoins, on aurait tort de ne pas l’exploiter dans d’autres contextes (recherche presse par exemple) même si cela va s’avérer plus complexe car les citations sont ici directement mêlés au texte et il n’existe aucune règle ou norme.

Si cette forme de recherche est ancestrale - on pouvait déjà tirer parti des références bibliographiques avant même l’arrivée des banques de données et d’Internet -, elle a été rendue plus simple et intuitive avec le développement des liens hypertextes dès les années 90.

Mais elle bénéficie aujourd’hui d’un nouveau souffle grâce au développement du mouvement de l’Open (open access, open science, open data, etc.) et les progrès de l’intelligence artificielle. C’est ainsi que l’on voit se développer de nouvelles fonctionnalités et outils dédiés, principalement dans le domaine scientifique et académique.

Quels sont ces nouveaux outils et fonctionnalités pour tirer parti des citations et références ? Comment rechercher efficacement à partir des citations et références d’un article scientifique, d’une thèse mais aussi d’un article de presse, de blog, etc. ?

C'est ce que nous analyserons dans cet article, avec un cas pratique sur la recherche de citations et références appliquée à la littérature.

Déjà abonné ? Connectez-vous...

Connexion

Les opérateurs méconnus de LinkedIn et les nouvelles limitations

Carole Tisserand-Barthole

Bases no

369

publié en

2019.04

1226

Acheter ce no

Tags

réseaux sociaux | recherche Web | information business

Les opérateurs méconnus de LinkedIn et les nouvelles ... Image 1

LinkedIn est un outil de recherche puissant pour tout ce qui a trait à la recherche sur les personnes mais également depuis peu pour le contenu.

Irina Shamaeva, auteur du blog https://booleanstrings.com spécialisé dans la recherche d’information et le sourcing appliqué aux ressources humaines et au recrutement, a publié un intéressant récapitulatif des opérateurs de recherche existants sur LinkedIn, parmi lesquels certains fonctionnent mais ne sont même pas documentés par LinkedIn (voir figure 1 - Pour abonnés uniquement).

Déjà abonné ? Connectez-vous...

Connexion

TOTAL MATERIA : une banque de données matériaux très complète

François Libmann

Bases no

369

publié en

2019.04

1709

Acheter ce no

Tags

information scientifique et technique

TOTAL MATERIA : une banque de données matériaux très ... Image 1

L’idée de banque de données matériaux réunissant le plus grand nombre possible de propriétés (et elles sont très nombreuses) de tous les matériaux (et ils sont encore beaucoup plus nombreux, même si on se limite à certaines catégories comme les alliages métalliques) est un vieux rêve d’ingénieur.

Bien entendu, la banque de données idéale devait permettre de faire des recherches « dans les deux sens » c’est-à-dire d’obtenir instantanément les propriétés d’un matériau donné et à l’inverse d’identifier des matériaux ayant une certaine combinaison de propriétés et, si possible, des matériaux aux propriétés proches.

Banques de données matériaux : des années 80 à nos jours

Plus récemment, compte-tenu des évolutions des logiciels de conception industrielle, est apparu l’intérêt de pouvoir transférer directement certaines données vers des logiciels d’IAO/ CAO.

Les premières réalisations de banques de données matériaux datent d’il y a plusieurs dizaines d’années et se sont développées à mesure de l’avancement des technologies informatiques, en particulier les tailles des mémoires et les capacités de calcul.

Pour illustrer que cet intérêt n’est vraiment pas nouveau, on rappellera que la Commission européenne avait créé un programme baptisé « 1984-1988 Awarness programme on Materials databases » d’aide à la réalisation et à la diffusion des banques de données matériaux à partir d’une sélection d’onze d’entre elles parmi lesquelles trois françaises dont l’une, Thermodata, existe encore aujourd’hui. FLA Consultants avait été chargé, dans le cadre de ce programme, des opérations de sensibilisation à ce type de banques de données (avec démonstrations dans les 12 pays, à l’époque, de l’Union Européenne et édition d’une brochure de présentation dans les 9 langues de ces pays).

Sensiblement au même moment, en décembre 1984, a été créée l’association CODATA France avec l’objectif de « promouvoir et d’encourager la production, la validation et la diffusion de données numériques fiables ayant trait à la science et à la technologie »

CODATA France s’était associée avec la DBMIST du Ministère de l’éducation nationale de la jeunesse et des sports pour publier en 1989 le Guide des banques de données factuelles françaises sur les matériaux. Ce guide a été édité par FLA Consultants.

Il présentait 40 banques de données produites par 29 organismes.

Seules certaines d’entre elles existent toujours.

Les raisons de la disparition de beaucoup d’entre elles peuvent tenir à la fin du financement d’un projet, à des changements de politiques d’un organisme, à des difficultés techniques devenues insurmontables, comme par exemple l’obsolescence d’un logiciel obligeant à tout recommencer ou… à la retraite du concepteur/animateur de certaines banques de données.

Le serveur STN, pour sa part, a offert pendant un temps un accès au Materials Property Data Network (MPD network) composé d’une quinzaine de banques de données.

Quoi qu’il en soit, le besoin de ce type de données ne s’est pas éteint après une première série d’initiatives.

Déjà abonné ? Connectez-vous...

Connexion

Sommaire mars 2019

Rédaction

Bases no

368

publié en

2019.03

894

Acheter ce no

Tags

sommaire

I-EXPO 2019

• Quelles pratiques de veille dans les entreprises françaises en 2019 ?
• Les facteurs de succès de l’IA au service de la veille
• Quel rôle pour les pros de l’info vis à vis de la désinformation ?
• Utilisateurs et experts métiers : l’humain au cœur du dispositif de veille
• A l’heure des livrables augmentés
• De nouvelles formes de veille au service de l’image des entreprises

BREVETS

• Pat-INFORMED : une base de données de brevets biomédicaux

Déjà abonné ? Connectez-vous...

Connexion

Quelles pratiques de veille dans les entreprises françaises en 2019 ? Dossier spécial i-expo/Documation

Carole Tisserand-Barthole

Bases no

368

publié en

2019.03

1833

Acheter ce no

Tags

conférences salons | professionnel de l'information

Quelles pratiques de veille dans les entreprises françaises ... Image 1

Le salon i-expo, le rendez-vous annuel de la veille et de la recherche d’information, vient de fermer ses portes.

L’occasion pour nous de faire le point sur les pratiques de veille et de recherche d’information des entreprises françaises en 2019, à partir des nombreux témoignages et interventions expertes et opérationnelles proposés lors des différentes tables-rondes.

Comme l’année dernière, le salon était organisé conjointement avec Documation, le Data Intelligence Forum, eLearning expo, Digital Workplace et Solutions Ressources Humaines, ce qui créait une fois de plus une synergie intéressante.

Il est en effet aujourd’hui impossible d’envisager la recherche d’information et la veille comme des entités complètement autonomes et en silos. Elles se retrouvent partout, à tous les niveaux de l’entreprise et font de plus en plus appel aux méthodes et outils de disciplines connexes : marketing, SEO (Search Engine Optimization), e-learning, communication, etc.

Déjà abonné ? Connectez-vous...

Connexion

Les facteurs de succès de l’IA au service de la veille - Dossier spécial i-expo/Documation 2019

Carole Tisserand-Barthole

Bases no

368

publié en

2019.03

2374

Acheter ce no

Tags

outils de veille | professionnel de l'information | IA

Les facteurs de succès de l’IA au service de la veille - ... Image 1

Impossible aujourd’hui d’occulter la question de l’intelligence artificielle en lien avec la veille et la recherche d’information. Deux conférences d’i-expo portaient d’ailleurs exclusivement sur cette thématique et l’on retrouvait cette question en filigrane de toutes les autres tables-rondes.

Si pour certains professionnels, elle peut être perçue comme une menace, avec des machines et algorithmes capables de remplacer les pros de l’information, pour la majorité des experts présents lors du salon, l’IA est considérée comme une alliée au service de la veille et du veilleur « augmenté », capable d’automatiser certaines tâches chronophages et à faible valeur ajoutée.

L’IA au service de la veille et du veilleur « augmenté »

Comme nous avons pu le voir dans le précédent numéro de BASES, les outils de recherche et de veille professionnels (agrégateurs de presse, bases de données, plateformes de veille, etc.) ont de plus en plus recours à l’IA dans leurs produits.

Mais nous avons pu découvrir également à l’occasion de ces trois jours que des services d’information et de veille au sein des entreprises développaient en interne leurs propres outils à base d’IA pour optimiser et enrichir leurs processus de veille et de recherche.

Parmi les exemples cités lors des différentes conférences sur la place de l’IA dans les produits du marché ou développés en interne, on retrouvait donc l’utilisation classique de l’IA pour :

l’indexation automatique des contenus (mais on a toujours besoin d’une supervision humaine finale) ;
le développement de fonctionnalités de recommandations automatiques de contenus (documents similaires, autres documents consultés par les autres utilisateurs, etc.) ;
l’analyse du sentiment (négatif, neutre ou positif) même s’il existe un consensus autour du fait qu’aujourd’hui aucune solution sur le marché ne fonctionne correctement ;
la détection de logo de marques dans les images et maintenant même dans les vidéos ; on pourra ainsi citer cette nouvelle fonctionnalité de « video recognition » annoncée par Talkwalker, une plateforme de social media monitoring.

Et quels que soient les exemples et témoignages fournis par les différents intervenants, on retrouvait toujours cette nécessité d’une supervision humaine finale car les résultats fournis par la machine ou l’algorithme sont généralement imparfaits et contiennent toujours une part d’erreur.

Tous se sont accordés à dire qu’on ne peut prendre pour argent comptant les résultats et analyses fournies par une machine.

D’où le besoin de transparence, de documentation, de justification et de contrôle de toute solution à base d’intelligence artificielle dans les entreprises.

C’est ainsi qu’Olivier Stoband, Directeur de Projet Conformité Digital Innovation Office à la Société Générale indiquait que dans le cadre du projet de développement d’un algorithme de détection des « negative news » en interne, il était dans l’obligation de documenter et justifier dans les détails le fonctionnement de l’algorithme et de ses choix auprès des autorités régulatrices mais également de toute sa hiérarchie.

Déjà abonné ? Connectez-vous...

Connexion