L’IA étant devenue incontournable, la plupart des serveurs et agrégateurs de presse développent de nouveaux outils ou de nouvelles interfaces intégrant ces développements technologiques.
Les équipes de Questel sont persuadées que l’IA va profondément bouleverser les opérations liées à la propriété intellectuelle, aussi bien pour la recherche, que la visualisation des résultats puis de leur analyse, le classement des résultats et plus généralement pour optimiser les workflows complexes de ce domaine.
Nous avons déjà présenté dans ces colonnes SCOPUS AI et Web of Science Research Assistant (BASES, Nos 425 et 428). Nous explorons aujourd’hui les améliorations apportées par Questel à Orbit Intelligence par l’utilisation de ChatGPT tant pour la recherche que pour la visualisation des réponses.
1. « SUGGESTION » : l’identification des synonymes assistée par l’IA
Après avoir entré des termes de recherche dans la boîte « Search terms » de la recherche avancée, en cliquant sur le bouton « SUGGESTION » en haut à droite de l’écran fait apparaître des signes + devant chaque terme de recherche.
En cliquant sur le signe + précédent un terme, on fait apparaître la traduction du terme en anglais, s’il n’est pas déjà dans cette langue, et un grand nombre de synonymes suggérés. On peut ajouter (avec un opérateur OR qui se met en place) une sélection de ces termes ou l’ensemble d’un simple clic.
Déjà abonné ? Connectez-vous...
Nous avions décrit dans la rubrique IA du dernier numéro de BASES comment utiliser la nouvelle fonctionnalité « styles rédactionnels » de Claude, dont la promesse est de produire un texte avec le « bon style de rédaction ».
Cette fonctionnalité est intéressante en soi, car elle nous emmène déjà au-delà de la « simple » génération de contenus, vers la création de textes toujours plus personnalisables, de qualité comparable à ceux que l’on produit manuellement et même, pourrait-on dire, « humanisés ».
Claude fait d’une certaine façon « coup double » avec cette fonctionnalité des styles personnalisés : elle concerne à la fois la rédaction d’un texte en imitant un auteur humain donné et l’adaptation du message au type de public cible.
On perçoit tout de suite le potentiel de cette promesse, entre indétectabilité de l’IA et possibilité d’éviter de longues heures de rédaction. Une mine de productivité également en vue pour les entreprises, dont certains services doivent produire et communiquer de très gros volumes d’information.
On mesure également le risque d’appropriation et de détournement de styles appartenant à des auteurs, des marques ou des communautés…
Déjà abonné ? Connectez-vous...
Ryan, qui a rejoint notre équipe de rédaction, est « Research librarian » à l’Université Wesleyan du Tennessee aux États-Unis. Cette fonction de « bibliothécaire spécialisé en recherche », située à l’intersection de la documentation et du soutien à la recherche académique joue un rôle très important dans la diffusion des connaissances et le développement des compétences en recherche au sein de l’université.
Les contributions de Ryan sont traduites de l’anglais par notre équipe.
Plus d’un an s’est écoulé depuis que l’intelligence artificielle (IA) s’est largement répandue, modifiant, en particulier, radicalement les processus de prise de décision, les modes d’écriture, de pensée et d’analyse des modèles, entre autres. Depuis la sortie de logiciels tels que ChatGPT, l’utilisation de l’IA et ses applications ont été vivement débattues et discutées. Qu’il s’agisse de l’application de la loi, des soins de santé, de l’éducation ou des ressources humaines, l’utilisation (et dans certains cas, l’abus) de l’IA a suscité l’émoi de nombreux professionnels intéressés par ces questions. Dans mon propre domaine, celui des sciences de l’information, les publications d’articles, les ateliers numériques et les autres occasions d’apprendre, d’expérimenter et de discuter de cette technologie émergente et passionnante ne cessent de se multiplier.
En tant que bibliothécaire de recherche à l’université Wesleyan du Tennessee, mon rôle a progressivement évolué en raison de cette technologie nouvelle et perturbatrice. Ce qui était autrefois une préoccupation majeure concernant l’intégrité académique devient maintenant un sujet potentiel d’intégration dans nos routines et opérations. Entre le moment où je m’assois dans mon bureau et celui où je pars le soir, mes journées sont remplies des réunions avec les étudiants, les professeurs et les clients potentiels, afin de déterminer le type d’informations ou de données dont ils ont besoin pour leurs projets respectifs, et comment l’IA peut aider. Ces projets peuvent aller d’un simple devoir d’anglais à des manuels médicaux publiés au milieu du XIXe siècle, en passant par des livres de cuisine publiés au Levant pendant l’âge d’or de l’islam. Même les bases de données que nous utilisons pour nos clients, telles que Statista et JSTOR, ont commencé à expérimenter l’IA dans leurs fonctions de recherche.
Déjà abonné ? Connectez-vous...
L'utilisation d'un ordinateur personnel est aujourd'hui une évidence. Il n'est plus nécessaire d'être un expert pour s'en servir, d'autant plus que ces appareils peuvent désormais prendre la forme d'un téléphone.
En fait, c’est dans l’État du New Hampshire aux États-Unis, précisément au Dartmouth College, le vrai nom de l’« Université de Dartmouth » tel qu’on le voit écrit dans la presse, que ce concept s’est matérialisé pour la première fois en 1964. Le Dartmouth College appartient à la Ivy Ligue qui rassemble huit universités prestigieuses du nord-est des États-Unis.
Ce concept fut l’aboutissement de la démarche de deux enseignants en mathématique dans cette université, John Kemeny et Thomas Kurz.
Ce dernier vient de décéder à l’âge de 96 ans, ce qui explique que ce sujet revienne dans l’actualité.
Leur idée quelque peu révolutionnaire à l’époque était que tout étudiant, quel que soit son niveau en science et sa discipline, devait pouvoir utiliser très facilement, et au moment où il en avait besoin, un ordinateur, sans donc avoir à le réserver longtemps à l’avance comme c’était la pratique courante à l’époque sur les grands systèmes et sans avoir à apprendre un langage d’interrogation compliqué.
De plus, l’objectif était de se libérer des cartes et rubans perforés au moyen desquels on entrait alors les instructions dans l’ordinateur.
Kemeny et Kurtz ont compris que pour permettre à tous les membres du campus d'accéder à un ordinateur, deux conditions devaient être réunies : l'utilisation du time sharing permettant de se connecter à une unité centrale via un simple télétype, ainsi qu'un langage de requête plus accessible que le FORTRAN ou l'ALGOL, couramment utilisés à l'époque.
Déjà abonné ? Connectez-vous...
Google Scholar a été créé en 2004 par deux chercheurs. Son objectif a été et est toujours de référencer de grandes quantités d’articles, de rapports, de comptes-rendus de conférences, de livres ou de thèses pour peu qu’ils relèvent du secteur académique.
Sa devise « Standing on the shoulders of giants » signifie que Google Scholar existe parce que des chercheurs ont écrit et accumulé d’immenses quantités de connaissances. Cela a justifié la création de Google Scholar pour aider à naviguer dans cet océan d’information et y trouver des réponses à ses questions.
Les raisons de cette large utilisation sont très simples.
D’une part, l’accès est gratuit alors que de nombreuses sources d’information scientifique sont payantes. C’était particulièrement vrai il y a vingt ans, mais moins aujourd’hui.
D’autre part, l’étendue de sa couverture a pour conséquence qu’il est rare de ne pas trouver au moins quelques réponses intéressantes et bien souvent un nombre non négligeable à une question scientifique.
Enfin, son utilisation est simple, voire très simple, même si quelques possibilités avancées sont disponibles bien que pas toujours très mises en avant.
En revanche, la troncature n’existe pas alors que c’est un « must » pratiquement partout. On ne peut pas non plus entrer une chaîne de recherche experte sans même parler de combinaisons d’étapes totalement impossibles.
En ce qui concerne le traitement des réponses, leur nombre est limité à 1 000 ce qui est largement suffisant pour une simple lecture, mais ne l’est plus pour faire du data mining.
Même si ses utilisateurs semblent être toujours aussi nombreux, on voit poindre une série de critiques plus ou moins fondamentales.
On rappellera la critique, existant pratiquement depuis l’origine, concernant l’opacité systématique du « process de fabrication ». En effet, on ne connaît pas la liste de sources utilisées, pas plus que le nombre de documents indexés ou l’algorithme de sélection des informations.
Cela a pour conséquence qu’il est impossible, par exemple, de limiter les réponses à celles issues de publications à comité de lecture.
Il semblerait, d’autre part, que l’algorithme de sélection des réponses accorde une grande importance au nombre de fois où l’article est cité. Cela a pour conséquence de privilégier les articles anciens, car plus souvent cités.
On parle maintenant aussi de manipulations, en particulier d’achat de citations, d’« envahissement » par des articles écrits par de l’IA, représentant une menace de submersion de la « bonne science » par de la « mauvaise science ». Certains s’inquiètent aussi de la pérennité du financement de Google Scholar qui est à l’entière discrétion de Google.
Par ailleurs une large concurrence existe maintenant. Si PubMed/Medline, dans le domaine biomédical, est depuis longtemps (en fait, bien avant la naissance de Google Scholar) une alternative beaucoup plus transparente, de nombreux moteurs gratuits on fait leur apparition ces derniers temps comme The Lens, Dimensions, Open Alex et bien d’autres. Google Scholar n’est donc plus le seul ou presque à proposer des recherches gratuites de documents scientifiques dans un corpus de taille importante.
La taille de Google Scholar a toujours été un mystère et le reste.
Quelques chiffres, assez anciens, circulent, ils vont de 100 à 400 millions de documents, ce dernier chiffre correspondant aux estimations les plus récentes. Tout ce que l’on peut dire est que l’on y trouve des documents académiques, couvrant des publications scientifiques de différentes époques et disciplines.
Sont référencés aussi bien des publications de grands éditeurs scientifiques, qu’elles soient gratuites ou payantes, que des rapports ou des thèses. De plus, pour certains articles, c’est le texte intégral qui est indexé, même s’il s’agit d’un article qui n’est pas en open access.
Quant au nombre de visiteurs, le mystère est, là aussi, bien entretenu. José Luis Ortega, un « bibliométricien » espagnol, l’estime à plus de 100 millions par mois.
L’achat de citations à faire figurer dans Google Scholar pour embellir frauduleusement son CV est une pratique bien documentée.
Déjà abonné ? Connectez-vous...
Maître Thibault du Manoir de Juaye, avocat à la Cour de Paris, est un spécialiste reconnu en intelligence économique et en droit de la sécurité privée. Il a fondé son cabinet en 1995, intervenant régulièrement sur des dossiers liés à l’intelligence économique, notamment en matière de propriété intellectuelle.
Auteur de plusieurs ouvrages sur le sujet, il a également été rédacteur en chef du magazine « Regards sur l’IE ».
L’intelligence artificielle amplifie les problématiques juridiques déjà connues pour la veille et l’IE, notamment en raison de sa faculté à faciliter les recherches et à générer automatiquement des contenus de tout type.
Même si elle n’en est sans doute qu’à ses débuts, il existe déjà des tentatives pour encadrer juridiquement l’intelligence artificielle (IA).
Des juristes imaginatifs (et pour moi loufoques) vont même jusqu’à soutenir qu’il faudrait donner la personnalité juridique aux systèmes d’IA, un peu comme les sociétés ont la personnalité morale. Mais il ne s’agit pour le moment que de spéculations ludiques et récréatives, sans grand intérêt, sauf pour quêter une exposition médiatique à moindres frais.
Il faut donc s’en tenir au droit positif.
L’intelligence artificielle est désormais encadrée par un règlement européen en date du 12 juillet 2024, texte qui sera complété par des milliers de pages d’application.
Il est encore difficile de qualifier précisément l’impact de l’IA sur les activités de veille et de surveillance, de recherche sur tous objets et sujets, d’analyse ou encore de création de contenus. Cependant, il est probable que certaines des pratiques et opérations réalisées soient susceptibles de relever de la réglementation sur l’IA. C’est le cas par exemple de l’analyse des émotions et des comportements visés expressément dans l’IA Act, qui réglemente également le profilage des personnes.
Or, tant les créateurs, les commercialisateurs ou les utilisateurs, ont des obligations à respecter qui ont dans leur esprit un léger parfum de RGPD. Un des grands principes qui gouverne ces obligations est celui de transparence et dans de nombreuses circonstances, il faut indiquer que l’on a recours à l’IA.
Le règlement européen sur l’IA classifie les systèmes d’IA en quatre catégories principales selon leur niveau de risque. A chaque risque est associé des obligations différentes pesant tant sur les utilisateurs (appelés les « déployeurs ») que les producteurs (commercialisateurs, concepteurs, importateurs, etc.).
Première catégorie : IA à risque inacceptable : Ces systèmes sont interdits, car ils menacent les droits fondamentaux, comme les systèmes de notation sociale (*) gouvernementaux. Le règlement interdit explicitement l’utilisation de systèmes de reconnaissance des émotions basée sur des données biométriques dans deux contextes précis :
(*) Aussi appelée « score social », la notation sociale est un système permettant d’attribuer une note, un score à un individu en fonction de son comportement dans son cadre personnel ou professionnel.
Deuxième catégorie : Les IA à haut risque : cette catégorie comprend les systèmes utilisés dans des domaines sensibles comme l’éducation, l’emploi, ou la gestion d’infrastructures critiques. Ils doivent se conformer à des exigences strictes et subir une évaluation de conformité. Il faut se référer à l’annexe 3 du règlement qui en fournit une liste exhaustive, et il convient de se demander si les opérations de veille ou d’intelligence économique, via de l’IA sur un de ces domaines, peuvent relever de cette catégorie à haut risque. Par exemple, les systèmes d’IA utilisés pour la reconnaissance des émotions sont généralement classés comme systèmes à haut risque. En effet, l’article 6 et l’annexe III classent les systèmes de reconnaissance des émotions comme des systèmes d’IA à haut risque, les soumettant à des exigences strictes.
De plus, l’article 52 impose des obligations de transparence pour les systèmes d’IA interagissant avec des personnes physiques.
Déjà abonné ? Connectez-vous...
Devant l’avalanche d’annonces sur les innovations et nouveautés en IA, cette rubrique met en avant celles que nous considérons comme utiles pour les professionnels de l’information.
N’hésitez pas à nous partager vos questions ou sujets d’intérêt liés à l’IA en nous écrivant à l’adresse Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser..
En préliminaire, il nous paraît important de clarifier notre position sur la difficulté à recommander de s’abonner à tel ou tel modèle d’IA pour accéder à certaines fonctionnalités (même si nous pensons que l’abonnement à ChatGPT est un must).
La dynamique entre les fonctionnalités gratuites et payantes dans les modèles d’IA évolue constamment, en fonction des stratégies commerciales, des retours utilisateurs et des innovations technologiques. Une fonctionnalité peut être d’abord réservée aux abonnés puis devenir gratuite, ou inversement, être monétisée après avoir gagné en popularité.
Anthropic sort une nouvelle version de son modèle Claude 3.5 Sonnet avec une innovation majeure dans le traitement documentaire, qui enrichit l’analyse les documents complexes en extrayant et analysant les éléments visuels contenus quand il existent.
Cela grâce à une nouvelle fonctionnalité, Visual PDFs, qui permet de traiter non seulement le texte des documents PDF, mais aussi les composants visuels tels que les images, graphiques, tableaux et diagrammes.
On entrevoit les nombreuses applications potentielles pour les documents scientifiques et académiques dont les composants visuels sont par nature très riches. En particulier, les chercheurs et professionnels de l’information disposent maintenant d’un outil permettant une lecture multidimensionnelle des documents scientifiques et académiques. L’image devient un élément constitutif de l’analyse, plutôt qu’un simple supplément.
Une avancée majeure a été annoncée, intégrée au modèle Claude 3.5 Sonnet. Elle permet à l’IA d’interagir directement avec des ordinateurs, comme le ferait un utilisateur humain… Cette fonctionnalité, appelée « Computer Use », permet à Claude de :
Annoncée comme destinée principalement aux développeurs via l’API d’Anthropic ou des plateformes cloud comme Amazon Bedrock, on en pressent le potentiel d’automatisation de tâches complexes quotidiennes, comme la gestion des emails ou l’organisation de fichiers.
La capacité de Claude à simuler des interactions utilisateur représente plus qu’une prouesse technique : c’est une reconfiguration profonde des modalités d’interaction homme-machine.
Déjà abonné ? Connectez-vous...
Notre première démarche en préparant cet article a été d’interviewer Denis BERTHAULT, vice-président du GFII, et surtout, fin connaisseur des nombreuses évolutions et péripéties de l’information juridique en ligne en France. Qu’il soit ici remercié pour ses précieuses informations accompagnées de commentaires fort pertinents.
Judilibre, qui a vocation à diffuser en open access les décisions de justice, monte en puissance comme prévu. La Cour de cassation qui opère ce service s’était vu confier cette mission de mise à disposition des décisions de justice par un décret du 29 juin 2020.
Le 30 septembre 2021, un premier lot d’environ 480 000 décisions de la Cour de cassation a été chargé. Il comprend une sélection de décisions rendues par la Cour depuis 1947, décisions qui étaient auparavant disponibles sur Légifrance et qui pour le moment y sont toujours.
Depuis cette date, toutes les décisions de la Cour de cassation sont intégrées de manière continue. Au 10 octobre, 535 855 décisions étaient accessibles en ligne.
En avril 2022, 180 000 arrêts de toutes les cours d’appel ont été mis en ligne, et le chargement des décisions courantes civiles, sociales et commerciales a commencé. Le total atteignait 392 000 arrêts au 10 octobre 2024.
À partir de décembre 2023, les jugements de 48 tribunaux judiciaires en matière civile, sociale et commerciale ont été ajoutés. Le total atteignait 72 000 jugements au 10 octobre 2024.
Sont prévus lors des prochaines étapes les chargements des décisions :
Le domaine couvert étant relativement bien cadré, l’essentiel de la recherche se fait par une série de choix dans des menus successifs. La seule possibilité ouverte est la recherche sur les mots du texte d’une décision. Dans ce cas, on entre un ou plusieurs mots dans la boîte de recherche et on renseigne plusieurs critères, ce qui constitue la première possibilité. On notera qu’il n’est pas possible de combiner des termes avec des opérateurs booléens.
Les critères sont l’option « recherche exacte » (on remarque qu’il n’est pas nécessaire de mettre des guillemets), la détermination de la période sur laquelle effectuer la recherche, puis le choix du type de décision (toutes, Cour de cassation, cours d’appel, tribunaux judiciaires).
Si l’on ne choisit pas la recherche exacte, la recherche sur les mots est « enrichie ». Par exemple, si le mot « mont » est dans la formulation de la recherche, on trouve dans les réponses les termes « monté », « montée » et même « monteur ». S’il y a plusieurs termes, un opérateur OU implicite est appliqué entre les mots.
Si, à ce stade, on choisit l’option « Toutes les décisions », on obtient directement la liste de résultats, avec le type de décision, la date, un numéro de référence, un extrait contenant le/les mots de recherche et enfin un bouton « LIRE » qui permet d’accéder au texte structuré de la décision accessible dans différents formats.
Si on se limite à un type de décision, on se voit proposer une nouvelle série de critères. Pour les Cours d’appel et les tribunaux judiciaires, on peut choisir la localisation puis la nature du contentieux dans la très longue et très détaillée liste proposée, les deux étant légèrement différentes.
Pour les arrêts de la Cour de cassation, les critères sont plus « techniques » tels que chambre, solution, formation.
Déjà abonné ? Connectez-vous...
« Avec 1542 demandes de brevets, Stellantis est le premier déposant en 2023 ». La presse économique est friande de ce type de chiffrage.
Que peut-on en déduire ? L’avantage de ces données brutes, c’est leur simplicité de lecture ; le dépôt de demandes de brevet étant souvent considéré comme un indicateur de la capacité d’innovation d’une entreprise, on peut en conclure qu’« en 2023, Stellantis est plus innovant que Safran qui l’est plus que Valeo… ».
Est-ce aussi simple ? Probablement pas, car attribuer le même poids à tous les brevets, c’est oublier que tous ne se valent pas. Comment donc introduire du qualitatif dans ce type de comptage, afin d’arriver à une vision plus juste ?
La valeur d’un brevet peut se décomposer en valeur juridique, technique et commerciale. Par valeur juridique, on fait par exemple référence à la solidité du brevet dans une action en annulation devant un tribunal ou dans une procédure d’opposition. La valeur technique fait référence à l’intérêt de la technique, à son potentiel de mise en œuvre dans un cadre industriel. Quant à la valeur marché, elle est liée au marché potentiel du produit breveté, sa diffusion géographique et sectorielle, laquelle valeur est bien entendu liée à la couverture géographique de la famille de brevet.
Lorsque l’on traite un grand nombre de brevets dans le cadre de classements de type géographique ou sectoriel (classement des déposants français ou des déposants de brevet dans le domaine de l’IA par exemple), il est difficilement envisageable de pondérer chaque brevet par un coefficient qui représenterait une combinaison des valeurs juridique, technique et marché dudit brevet.
Quelles méthodes ont-elles été adoptées pour sortir tout de même du « basiquement quantitatif » ?
« Les brevets sont un moyen de protéger les inventions développées par des entreprises, des institutions ou des particuliers et, en tant que tels, ils peuvent être interprétés comme des indicateurs d’inventions »
Manuel de statistique brevet, OCDE 2009
La citation de l’OCDE a le mérite de rappeler un élément cardinal : les brevets sont des indicateurs d’inventions, et non pas d’innovations, ce que l’on a parfois tendance à oublier. Une innovation est souvent assimilée à une invention qui a trouvé son marché, ce qui n’est pas le cas de toutes les inventions. Si l’étude des brevets permet par approximation d’estimer la capacité de « création technique » d’une entreprise, en tirer des conclusions sur la capacité d’innovation peut être hasardeux.
À l’examen des différentes tentatives pour introduire de la qualité dans la quantité il apparaît que la prise en compte de la famille de brevets est souvent utilisée. Cette famille est rappelons-le, constituée d’une demande de brevet de base - la première que l’on dépose pour valoriser/protéger une invention - et des demandes consécutives, parfois dénommées « extensions internationales », basées sur cette première demande, et visant à valoriser la même invention dans d’autres territoires.
Déjà abonné ? Connectez-vous...
Lenso.ai est une plateforme spécialisée dans la recherche inversée d’images. Créé récemment, cet outil permet aux utilisateurs de télécharger une image puis d’obtenir en résultat une série d’images plus ou moins proches/analogues à l’image de départ. Elle est d’origine polonaise, comme sa célèbre consœur PimEyes spécialiste de la recherche faciale.
La plateforme exploite des algorithmes complexes qui analysent l’image téléchargée et la comparent à un index interne de données visuelles en ne repérant que les meilleures correspondances. Les résultats sont intelligemment classés en plusieurs catégories distinctes :
Par ailleurs, Lenso.ai, grâce à une collaboration avec la société singapourienne EyeMatch, a lancé un outil de reconnaissance faciale particulièrement performant. Sur ce terrain, Lenso.ai n’est pas le seul.
Dans la recherche inversée d’images, rappelons TinEye (base de données de plus de 68 milliards d’images indexées), Google Images (recherche générale d’images similaires) et Yandex Images (recherche d’images haute résolution).
Pour la reconnaissance faciale : PimEyes, reconnu pour sa précision dans la recherche de photos de visages sur le web, FaceCheck.id (vérification d’identité et la recherche de visages sur les réseaux sociaux et Social Catfish [détection de potentiels vols d’identité].
Rappel : la recherche inversée d’images identifie des images similaires ou identiques en analysant les couleurs, formes et motifs. La reconnaissance faciale se concentre sur l’identification et l’analyse des visages grâce à des algorithmes spécialisés.
Qwant, le moteur de recherche français connu pour sa protection de la vie privée et son histoire quelque peu chaotique, s’allie à Ecosia, le moteur de recherche allemand se déclarant « le plus écologique de la planète », pour créer un nouvel index de recherche européen.
Déjà abonné ? Connectez-vous...