Impact sur la recherche d’information
Les outils se basant exclusivement sur la recherche par mot-clé se font de plus en plus rares. Tous les éditeurs ou presque intègrent des éléments de machine learning, deep learning et NLP dans leur moteur mais à différents degrés.
Comme on peut le voir ici, déléguer complètement sa recherche à une IA est extrêmement risqué et n’est finalement pas une solution satisfaisante. La pertinence est semble-t-il meilleure selon les dires de Textkernel mais on peut se demander par rapport à quoi ? Meilleure qu’un internaute lambda qui ne sait pas vraiment comment rechercher sur les moteurs et ne connaît pas les bonnes méthodes pour construire une requête experte ? Ou meilleure qu’une requête construite par un professionnel de l’information qui maîtrise l’interrogation des moteurs ?
En revanche, la combinaison des deux approches semble plus prometteuse et c’est généralement une évolution que l’on peut percevoir chez la majorité des outils de recherche professionnels même si cela n’a rien de simple.
On sera donc attentif aux évolutions des outils que l’on utilise, notamment les outils professionnels, et on n’hésitera pas à faire des retours auprès des éditeurs en cas de dégradation des fonctionnalités de recherche. Ces outils (payants) sont généralement bien plus attentifs aux remarques de leurs clients qu’on ne pourrait le croire.
Mieux comprendre les documents pour proposer des résultats plus pertinents : le cas d’un moteur de recherche juridique
Plusieurs start-ups s’avèrent très actives sur le créneau de la recherche juridique notamment en France. Elles font partie du mouvement qu’on appelle la « LegalTech ».
Lors de cette journée, deux ingénieurs de Doctrine, un moteur de recherche juridique français, étaient venus présenter la façon dont ils tentent d’améliorer la compréhension par le moteur des documents juridiques français pour proposer des résultats de plus en plus pertinents aux utilisateurs.
Le créneau de Doctrine par rapport à des concurrents plus classiques comme les bases de données juridiques, c’est l’utilisation de l’IA appliquée à la recherche d’information juridique. A la question d’un participant sur LexisNexis, les intervenants de Doctrine indiquaient d’ailleurs que les bases de données juridiques traditionnelles étaient effectivement leurs concurrentes directes mais qu’elles utilisaient encore assez peu l’IA dans leurs produits. On se rappellera la présentation réalisée par un taxonomiste de LexisNexis à la journée Search Solutions il y a deux ans qui montrait que si l’IA était bel et bien implémentée dans la taxonomie de LexisNexis, elle relevait encore beaucoup d’un processus humain.
L’un des axes de travail récent de Doctrine était de réussir à structurer automatiquement en amont les décisions de justice en réussissant à extraire l’en-tête, les parties, la composition de la Cour, les faits, etc. Une fois cette « table des matières » créée automatiquement, les utilisateurs pourraient naviguer plus facilement dans le contenu mais aussi effectuer des recherches spécifiquement sur certaines parties des décisions de justice.
Doctrine récupère les décisions de justice directement auprès des juridictions françaises en invoquant le principe d’open data des données de la justice. Il y aurait environ 4 millions de décisions de justice rendues chaque année en France.
Mais les décisions de justice sont des documents souvent longs et complexes. Et la personne qui recherche de l’information sur les décisions ne s’intéresse pas nécessairement à l’ensemble du document mais à une partie précise seulement. L’idée est donc de générer automatiquement une sorte de table des matières de la décision de justice permettant à l’internaute de naviguer plus facilement sur le contenu et de mieux rechercher sur celui-ci.
En règle générale, les décisions de justice françaises se présentent de la manière suivante :
- En-tête ;
- Parties ;
- Compositions de la cour ;
- Faits ;
- Moyens ;
- Motifs ;
- Dispositif.
Cependant, cette structure n’est pas systématique, l’ordre peut varier et les noms des sections ne sont pas nécessairement indiqués noir sur blanc.
Doctrine estime que 55 % des décisions de justice disposent de titres explicites pour chaque catégorie. Mais pour les 45% restants, il est beaucoup plus difficile de déterminer automatiquement la structure du document.
Doctrine a donc travaillé sur un algorithme capable de prédire pour chaque décision de justice dans quelle catégorie serait rangé chaque paragraphe.
Pour cela, il a fallu se baser sur l’ordre des paragraphes qui peuvent donner de précieux indices - la conclusion ne peut en effet jamais être avant la description des faits par exemple- mais également sur le vocabulaire utilisé.
Cette approche est assez similaire à la reconnaissance automatique d’entités nommées (nom, lieu, marques, etc.) sauf qu’il ne s’agit pas ici de travailler à l’échelle du mot mais du paragraphe.
Le modèle est technique et long à détailler, mais les personnes intéressées pourront retrouver toutes les informations à cette adresse : https://medium.com/doctrine/structuring-legal-documents-with-deep-learning-4ad9b03fb19.
Les résultats étant jugés très satisfaisants par Doctrine, ce système est aujourd’hui implémenté dans le moteur. Sur les 45% de décisions de justice qui ne disposaient pas de titres explicites, 90 % d’entre elles disposent aujourd’hui de tables des matières complètes. On en déduit donc qu’il ne resterait que 4 à 5 % des décisions de justice qui n’arriveraient donc pas à être catégorisées correctement.
Impact sur la recherche d’information
Tout d’abord, on peut voir que le développement progressif de l’open data en France et à l’étranger a un effet positif pour les professionnels de l’information grâce à l’apparition de nouveaux moteurs spécialisés.
Si les données brutes généralement mises en ligne sur des plateformes open data sont difficilement utilisables et « recherchables » en l’état, cela devient en revanche très intéressant lorsque des acteurs décident d’utiliser ces données en libre-service pour créer un véritable outil de recherche. Mais le revers de la médaille, c’est que ces outils sont alors très rarement gratuits, du moins jamais pour très longtemps. Ils deviennent alors payants comme les bases de données professionnelles qui existent depuis fort longtemps.
On surveillera donc attentivement l’apparition de start-ups liées à son secteur d’activité afin de détecter d’éventuels nouveaux outils de recherche spécialisés.
D’autre part, ces start-ups qui voient le jour autour de l’open data mettent souvent l’accent sur l’IA au service de la recherche. Dans le cas de Doctrine, on voit bien cependant que la recherche par mot-clé n’a pas complètement disparu et que l’utilisateur ne délègue pas complètement sa recherche à une intelligence artificielle. L’IA vient en complément pour améliorer le classement des résultats, la compréhension de la requête ou encore la compréhension des documents eux-mêmes et de leur structure. Et dans ce cas, l’IA peut avoir une réelle valeur ajoutée dans le processus de veille et de recherche.
Mais gare aux start-ups qui tendent à présenter la recherche comme un élément que l’on peut facilement déléguer à un algorithme. Comme nous avons pu le voir précédemment, seules les approches combinant recherche traditionnelle par mot-clé et usage de l’IA fonctionnent réellement.
Il faut avoir conscience que ces start-ups sont généralement créées par des informaticiens et des spécialistes du domaine sur lequel ils se lancent et on compte rarement de professionnels de l’information dans leurs rangs. Sur Doctrine par exemple, les fondateurs viennent du monde du droit et de l’informatique.
Il ne faut donc pas hésiter à soumettre des retours et discuter avec ces nouveaux acteurs lorsque l’on découvre de nouveaux outils pertinents afin de faire se côtoyer ces deux mondes qui ne se comprennent pas spontanément.
De nouvelles fonctionnalités de recherche liées à une meilleure compréhension du contexte : le cas d’un moteur spécialisé en médecine
Après les secteurs du recrutement et du juridique, il était cette fois question du secteur de la santé avec la base de données Cochrane pour les revues systématiques.
L’intervenant était ici venu présenter une nouvelle fonctionnalité de recherche appelée PICO Search pour l’instant en version beta.
PICO signifie Patient Intervention Control Outcome (Patient, Intervention, Contrôle, Résultat). Cet acronyme définit les quatre éléments d’une question clinique qui permet une recherche dans la littérature scientifique.
Sauf que dans la recherche traditionnelle sur Cochrane, la recherche s’effectue sur les titres, abstracts, mots-clés libres et MeSH, etc. Il peut donc être difficile d’identifier des revues systématiques correspondant parfaitement à ses besoins. Et passer en revue une grande quantité de documents afin de vérifier s’ils correspondent bien à son contexte PICO peut être extrêmement chronophage.
Cochrane a donc décidé de développer une nouvelle fonctionnalité permettant aux utilisateurs de visualiser rapidement pour chaque revue systématique le contexte PICO.
Des spécialistes de l’information et des experts ont ainsi annoté manuellement plus de 4 500 revues systématiques en indiquant notamment le contexte PICO. Un vocabulaire contrôlé a ainsi été créé. Cette nouvelle fonctionnalité permet de rechercher sur ces annotations et retrouver des revues systématiques se situant au plus proche de son contexte.
Cette nouvelle fonctionnalité est actuellement disponible :
- dans les résultats de recherche où, pour certains résultats on peut afficher le contexte PICO directement au niveau de la liste de résultats.
- dans un moteur dédié où l’utilisateur peut indiquer les éléments de contexte qui l’intéressent et voir s’afficher une liste de résultats correspondants.
Impact sur la recherche d’information
Les outils de recherche ne sont pas des produits figés et ils développent régulièrement de nouvelles fonctionnalités innovantes basées en partie sur les demandes et retours de leurs clients.
On pensera donc bien à suivre les évolutions des outils de recherche professionnels afin d’en tirer parti au mieux.
Dans ce cas précis, cette nouvelle fonctionnalité n’est en rien liée à l’IA et repose sur des annotations manuelles réalisées par des experts et professionnels de l’information.