Notre Avis :
C’était la conférence la plus intéressante qui présentait la mise en place d’un gigantesque ensemble d’informations réindexées et reclassées en fonction des besoins de l’entreprise. Si le budget de mise en place a été et est sans doute toujours important, les gains de productivité ont dû l’être tout autant. L’étendue du projet et son coût le réserve à des grandes entreprises qui ont les moyens et considèrent l’information comme une matière première essentielle.
Nous avons demandé au conférencier s’il y avait eu des publications à propos de ce projet. La réponse a été malheureusement négative. On sera donc obligé de se contenter des slides mises à disposition.
L’intervention de Jochen Leidner (Coburg University) a contenu trois thématiques.
- La première a détaillé la révolution qu’a connu le NLP depuis les années 2018 et l’utilisation de langages préformés (Pre-trained Language Models PTLM), notamment BERT.
- L’auteur a ensuite fourni une méthodologie complète d’implémentation de NLP en 23 étapes.
- Il a terminé sa présentation en mettant en évidence les ressources gigantesques nécessaires à la création d’une IA. Certaines universités ne sont d’ailleurs plus en mesure de créer des modèles tant la puissance de calcul demandée est importante. L’empreinte carbone de ces projets est également impressionnante, l’entraînement d’une AI NLP consomme autant de CO2 que douze personnes pendant un an ou les cycles de vie complets et cumulés de cinq voitures !
Signalons la présentation - plus technique - de Giancarlo Crocetti (St. John’s University) qui a présenté les avantages de la recherche vectorielle (embedding searches) et des conseils d’implémentation de cette approche.
Solutions IA disponibles « sur le marché » : l’information brevet à la pointe
Pas moins de trois intervenants ont mis en évidence les performances de catégorisation de « PatentMonitor » (Averbis).
Harald Jenny (Centredoc) s’est attardé sur l’intégration de celui-ci dans RAPID. Susanne Tropf a partagé une Success Story dans le cadre de veilles chez Syngenta et Kornel Marko a réalisé une présentation « commerciale » de la plateforme en annonçant le développement de la collaboration avec Minesoft (PatBase). La communication de Syngenta est particulièrement intéressante et illustrative. Elle montre comment l’IA peut améliorer le taux de rappel, exclure des documents non pertinents (avec un taux de précision de 99 %). L’autre intervenant estime gagner 70 % de temps dans le traitement des résultats de veille grâce à « PatentMonitor ».
Les ontologies ou les outils indispensables de l’IA
Plusieurs auteurs ont souligné l’importance de l’utilisation d’ontologies dans l’entraînement d’IA.
Jay Ven Eman et Marjorie Hlava (Access Innovation) ont démontré que s’appuyer sur des thesaurus, knowledge graphs et autres normes adaptées améliore les performances des IA de 34 %.
Les métadonnées extraites des documents sont donc bien toujours au cœur d’une recherche réussie. La communication de Linda Andersson (Artificial Research IT) a été également particulièrement appréciée. Elle a insisté sur l’importance de sources spécifiques aux données traitées. Sa société est reconnue pour offrir plusieurs services facilitant la création d’ontologies dans le cadre de projets IA.
Face à la réalité : mesurer les performances de l’IA
Figure bien connue des congressistes, Linus Wretblad (Uppdragshuset) a continué son analyse des performances de l’IA.
Ses conclusions actuelles pour la recherche de documents sont les suivantes (chiffres et graphiques à l’appui) :
- Le taux de rappel varie en fonction des domaines (R10 de 15 % et R100 de 35 % en moyenne) ;
- Un utilisateur peut améliorer de 30 % les performances de l’IA (sélection de classe, etc.) ;
- L’utilisation de textes plus longs a un impact positif sur la recherche ;
- Les traductions machine des documents impactent négativement le taux de rappel (10 %).
Ranjith Kumar Manupati (Tata Steel) a pour sa part souligné les mauvaises performances actuelles des outils de recherche IA tout en regrettant leur opacité. Il propose d’en limiter l’utilisation à certaines niches (génération de mots-clefs, échantillonnage de résultats, navigation dans les classifications, etc.). Cependant, selon lui, les performances de l’IA vont en s’améliorant, en particulier les solutions qui tirent parti d’interactions avec l’utilisateur.
IA et documents spécifiques : tableaux, marques et Internet
Les spécialistes « brevets » ne sont pas les seuls à faire appel à l’IA.
- Holger Keibel a traité de l’extraction de données tabulées. Vu l’importance du défi, il propose de limiter l’extraction automatique aux typologies les plus rencontrées et de traiter les cas spécifiques individuellement.
- Alexandre Lehmann (Canadian Intellectual Property Office) a démontré que l’analyse de tendances des marques est plus performante par fouille de texte (Text Mining) que par l’analyse de la classification de Nice.
- Finalement, Klaus Kater a présenté les solutions du Copyright Clearance Center (ex Deep Search Nine) pour l’extraction, la catégorisation et les traitements automatiques de contenus Internet. Plusieurs intervenants ont souligné les risques liés au droit d’auteur et la prudence qui s’impose dans l’implémentation de ce type de solutions.
Le mot de la fin
Si participer à des conférences comme AI-SDV 2022 permet aux spécialistes de l’information de se mettre à niveau, elles sont aussi une opportunité unique de réseautage. Ces événements sont autant d’occasions de renforcement de connaissances. Les présentations sont souvent très appliquées et facilement valorisables en entreprises. Espérons qu’un organisateur ambitieux prenne la relève et nous propose des événements de qualité dès 2023.