The Lens, un outsider au fort potentiel pour la recherche brevet gratuite

Philippe Borne
Bases no
393
publié en
2021.06
2010
Acheter ce no
Tags
évaluation outils | brevets
The Lens, un outsider au fort potentiel pour la recherche ... Image 1

The Lens est un moteur de recherche lancé en 2000 par une organisation à but non lucratif, Cambia, basée au sein de l’Université de Technologie du Queensland à Brisbane en Australie.

Particularité distinctive, il donne accès à trois bases de données, dont une base de publications scientifiques, objet de l’article de François Libmann dans ce même numéro « The Lens pour la littérature scientifique : des contenus mal valorisés », une base de séquences et une base de données brevets en accès libre. Cette dernière est l’objet de cet article.

 La sortie d’une nouvelle version de ce produit nous a semblé une bonne occasion de faire le point, en particulier sur ce qu’il peut apporter par rapport aux autres outils du même type, comme Espacenet ou Patentscope.

Un échange avec l’équipe qui l’a conçu nous a permis de comprendre son positionnement et ses évolutions.

Il faut dire que The Lens a été à l’origine d’un certain engouement, du fait en particulier de son design très attractif ; la question est aussi de savoir si le contenu est à l’image du contenant.

Nous allons parcourir les différents aspects de The Lens selon le séquencement suivant : la couverture de la base de données, les possibilités de recherche, l’affichage des résultats et l’export, le module d’analyse statistique, et les fonctionnalités d’aide.

The Lens : un contenu qui mériterait d’être précisé et complété

Précisons d’emblée que la situation actuelle peut prêter à confusion dans la mesure où deux interfaces coexistent, et ne sont pas aisées à distinguer tant les designs respectifs des deux sont très voisins.

La nouvelle interface est disponible à l’adresse https://preview.lens.org/lens/search/patent/structured.

L’ancienne interface est disponible à l’adresse https://www.lens.org/lens/search/patent/structured.

La nouvelle interface devrait entrer en production et se substituer de manière définitive à l’ancienne début juillet, sans modification majeure, cette nouvelle interface étant maintenant quasi stabilisée.

Selon le nouveau site de The Lens, la base de données couvre « Les données bibliographiques DOCDB de l’Office européen des brevets, des années 1700 à nos jours : Plus de 130 millions de documents provenant de plus de 100 juridictions.».

Le même site précise cependant d’une manière qui peut prêter à confusion qu’on y trouve les demandes de brevet US depuis 2001, les brevets US délivrés depuis 1976, les demandes européennes publiées depuis 1978, les brevets européens délivrés depuis 1980 et les demandes PCT depuis 1978 (les documents EP et PCT sont donc couverts depuis l’origine), texte intégral et images étant disponibles pour ces collections. The Lens couvre également le texte intégral des documents issus de l’Office Australien (IP Australia).

Le texte intégral n’est donc disponible que pour 21 millions d’enregistrements sur les 131 présents.

Les informations relatives aux cessions issues d’INPADOC et de l’USPTO sont disponibles pour 92 millions de brevets.

Il y a toutefois un certain flou dans la mesure où l’on ne sait pas quelles sont les dernières données issues de l’OEB qui ont été chargées. La notion «present» dans «1700’s - present » n’est pas non plus clairement définie.

Contrairement à Espacenet, on ne sait pas quelle est la période exacte de publication disponible pour chaque type de document (demande de brevet, brevet délivré …), et quelles données sont chargées pour ces différents types de documents (abrégé, titre, classifications …).

Figure 1. Nature des documents présents dans The Lens

Par exemple, plus de 50 millions d’enregistrements n’ont pas d’abrégé.

Les documents uniquement disponibles dans une langue telle que le chinois ne font pas l’objet d’une traduction machine pour les rendre recherchables via une requête en anglais. Toutefois, pour rester sur le cas des documents chinois, sur 30 millions de documents 28 ont un abrégé en anglais, obtenu via la documentation de l’OEB.

La couverture reste donc plus limitée que celle d’Espacenet, notamment sur le texte intégral.

L’information y est aussi probablement moins fraîche du fait du rythme de mise à jour bimensuel.

The Lens couvre les différents types de documents présentés dans le tableau (cf. Figure 1. Nature des documents présents dans The Lens).

Certaines catégories mériteraient d’être plus clairement définies, en particulier « limited patents », « amended patents », « ambiguous », « Design rights ».

Comme c’était déjà le cas sur l’ancienne interface, on constate la persistance sur la nouvelle interface d’un nombre très important de documents « unknown ». Ces documents « unknown » s’avèrent recouvrir entre autres 4 millions de documents allemands, un balayage rapide mettant en évidence de nombreux documents A1, qui devraient être associés à la catégorie « patent application ». Il y a donc un clair problème d’attribution de la bonne catégorie aux documents présents dans la base de données, ce qui n’est pas sans poser question, dans la mesure où il peut être nécessaire de cibler certaines catégories à la recherche, pour éviter de retrouver par exemple des brevets délivrés.

Notre avis :

La couverture mériterait d’être complétée, car de nombreux enregistrements sont dépourvus de descriptions, revendications, voire même d’abrégés, avec en outre un certain flou sur les périodes couvertes. On prendra garde à cet élément lors du choix des champs de recherche. La période de couverture reste plus limitée que celle d’Espacenet. L’attribution de la catégorie « unknown » est à améliorer ; un ciblage de la recherche sur les demandes de brevet implique par précaution de sélectionner également cette catégorie

The Lens : des fonctionnalités de recherche riches et intuitives destinées aussi bien au débutant qu’au professionnel

Un écran d’accueil clair et compact

L’écran de recherche (cf. Figure 2. Ecran d’accueil de The Lens) est constitué des parties suivantes :

A gauche (encadré par une ligne continue dans le schéma plus haut) des filtres qui permettent de sélectionner ou d’exclure un sous-ensemble de la base de données pour y effectuer une recherche. On peut par exemple sélectionner ou exclure des intervalles de dates de publication, de dépôt ou de priorité ; des offices de brevet (appelés juridictions) ; des déposants ; un statut juridique (par exemple pour chercher uniquement parmi les demandes en cours d’examen) ; des classifications, CIB, CPC ou les classes US. Le choix est assez vaste, et comporte des options peu habituelles : limitation aux documents ayant un champ particulier (attention toutefois, car, comme nous l’avons vu plus haut, seuls 22 millions de documents ont des revendications ou une description, 15 millions ont un titulaire, 80 millions ont un abrégé).

Une option, activée par défaut, permet de rechercher outre un terme lui-même, la racine de ce terme : acidic va par exemple retrouver également acid .

A droite, un pavé avec quatre onglets (encadré par une ligne en pointillés) donne respectivement accès à des informations sur le contenu de la base de données et la date de la dernière mise à jour; des explications sur le langage de recherche avancé; la liste des champs cherchables ; une courte liste de requêtes préenregistrées permettant au novice de voir des exemples de ce que l’on peut chercher.

Le bandeau en haut de l’écran (encadré par des tirets) donne des informations de nature quantitative sur la base de données (nombre total d’enregistrements, de familles simples, étendues, etc.).

Enfin, venons-en au plus important : les fonctionnalités de recherche. Elles se trouvent à deux niveaux : dans l’extrême haut de l’écran, et au centre.

Figure 2. Ecran d’accueil de The Lens

The Lens propose deux modes de recherche :

Un mode expert utilisant un langage de commande ;

Un mode simplifié se présentant sous la forme d’un formulaire.

Le mode de recherche formulaire : 120 champs cherchables

Le formulaire de recherche de The Lens (cf. Figure 3. Mode de recherche formulaire) se présente sous une forme flexible, dans la mesure où il est possible de choisir le nombre de champs (en rajoutant de nouveaux champs via un bouton + présent au bout du dernier champ créé, le nombre de champs possibles n’étant pas limité), le qualificateur de chaque champ (via un menu déroulant), et l’opérateur booléen appliqué entre les champs (AND ou OR).

La liste des qualificateurs de champ disponibles est très importante : jusqu’à 120 types de champs différents sont cherchables, contre 45 dans l’ancienne version. En dehors des champs classiques (dates, numéro, classifications, etc.), on note par exemple le type de document (demande, brevet délivré, etc.), le kind code (A1, B1, etc.) la langue de publication, la date de priorité la plus ancienne, ou, plus inhabituel, le nombre de documents dans les familles, le pays et l’adresse des inventeurs ou déposants ou le nombre de déposants.

Avec une telle panoplie, il est théoriquement possible de rechercher par code postal d’adresse de déposant, de cibler les documents les plus cités, d’identifier le pays d’origine des cessionnaires des titres d’une entreprise, à condition bien entendu que ces données soient présentes dans la base de données.

Lorsque l’on choisit un qualificateur de champ, un exemple d’entrée figure dans le champ de recherche en caractère gris clair, ce qui aide le débutant.

La langue de recherche peut également être paramétrée. Le défaut est l’anglais, mais il est possible de choisir le français, le chinois, l’espagnol et le russe, liste à laquelle la nouvelle version ajoute l’allemand, l’arabe, le coréen, le japonais et le portugais.

Un explorateur de classification est disponible permettant d’identifier des codes en cherchant par mots-clés.

Figure 3. Mode de recherche formulaire

Un mode de recherche avancé qui satisfera l’expert

The Lens offre pour les utilisateurs plus experts un langage de commande dérivé du langage Apache Lucene et accessible soit via un champ unique (assez peu visible) en haut de l’écran, soit en sélectionnant l’onglet « Text Query Editor » du pavé de recherche situé au centre de l’écran.

Les champs et opérateurs utilisables sont listés dans les onglets « Search Tips » et « Fields » du pavé droit de l’écran.

Exemple de requête :

Cancer AND (full_text:(resistance OR tolerance)) AND (applicant:(Merck OR “CBA Pharma”)) AND pub_date:[20160101 TO 20181231]

L’indicateur de champ est suivi des deux points ( : ) puis du terme à chercher, ou de termes entre parenthèses séparés par un opérateur booléen, qui doit figurer en majuscule.

The Lens possède un opérateur de proximité, qui est le signe ∼.

Par exemple : Abstract : “Cancer treat“∼1 retrouve des documents ou les mots cancer et treat (ou treating, ou treatment) sont séparés par 0-1 terme.

Le ? représente 0 ou 1 caractère, et la troncature est gérée par l’astérisque *; seule la troncature à droite est disponible, sauf sur un terme entre guillemets dans la recherche d’une expression. Par exemple, la requête "cancer treat*" ne fonctionnera pas, ceci pouvant représenter une limitation handicapante.

Globalement, on a là un langage qui ne déroutera pas les habitués des langages de commande des Questel ou STN.

Notre avis :

Le menu formulaire est intuitif et offre de riches possibilités, mais il s’avère limité si l’on veut effectuer des recherches plus élaborées combinant différents opérateurs booléens.

Le langage expert élaboré, comporte certaines subtilités et demande, comme tout langage de ce type, une certaine dextérité, mais est aussi affecté par quelques limitations.

Ce que l’on peut faire avec The Lens, et qu’il est difficile voire impossible de faire avec les autres services gratuits

On peut ainsi rechercher les demandes de brevets américaines déposées directement par des déposants français, en particulier hors priorité française, et comportant au moins un inventeur domicilié en France mais aucun inventeur domicilié aux Etats-Unis.

Il faut utiliser le langage de commande et tirer parti de la possibilité de rechercher le pays de l’inventeur ou du déposant. On filtre bien entendu sur les demandes US.

La requête est de ce type :

applicant.residence:FR NOT (priority_claim.jurisdiction: (FR OR WO OR EP)) AND inventor.residence:FR NOT inventor.residence:US

Figure 4. Affichage des résultats

Figure 5. Affichage de chaque référence bibliographique

Un affichage des réponses très réussi qui ne peut que séduire

Un en-tête rappelle la requête (cf. Figure 4. Affichage des résultats), et donne le nombre de réponses (18 dans notre exemple), le nombre de documents dans la famille simple ou étendue (13), le nombre de documents cités / citants (brevets et littérature non-brevet).

A noter que les notions de familles simples / étendues sont définies de la même manière que sur Espacenet.

Les réponses elles-mêmes sont affichées en format « Liste » ou en format « Table ».

Le format « Liste » donne pour chaque document les informations classiques (cf. Figure 5. Affichage de chaque référence bibliographique) dans un affichage assez attrayant.

Différentes fonctions permettent, toujours en mode d’affichage Liste, d’étendre chaque notice pour accéder à plus d’informations (abrégé, revendications, pré-affichage de la première page, classification, etc.), de sauvegarder la requête (mais il faut alors créer un compte et se connecter), de partager le document, d’exporter jusqu’à 1000 documents (50 000 si l’on crée un compte) dans différents formats, la liste de champs exportables étant très fournie, de trier les documents, ou de n’afficher qu’un document par famille.

Le mode d’affichage « Tableau » donne sensiblement les mêmes informations, il peut être personnalisé (avec choix de colonnes supplémentaires à afficher).

Lorsque l’on clique sur un document soit dans la liste, soit dans le tableau, on obtient pour le document en question un affichage complet, avec différents onglets donnant accès au texte intégral, à la famille, au statut juridique ; on peut télécharger le PDF du document original. Lorsque la souris passe sur le nom du déposant une fenêtre pop-up apparaît avec son adresse, et lorsqu’elle passe sur un code CIB/CPC une autre apparaît avec sa définition.

Figure 6. Ecran qui permet d’afficher les éléments sur la famille

L’écran qui permet d’afficher les informations sur la famille est parti­culièrement réussi (cf. Figure 6. Ecran qui permet d’afficher les éléments sur la famille), avec notamment sa frise temporelle où chaque membre de la famille est symbolisé par un signe différent, et lorsque la souris passe sur un de ces signes un pop-up apparaît avec titre, numéro et date de publication du document ; un planisphère permet de localiser les territoires couverts.

On ne peut nier le talent des designers qui ont conçu ces affichages.

A l’usage, il apparaît toutefois impossible de traduire les textes en langue asiatique par exemple (pas d’équivalent du Patent Translate d’Espacenet).

Les collections : intéressant mais attention à la confidentialité des données

Il s’agit là d’une fonctionnalité intéressante si l’on s’est créé un compte gratuit : la possibilité de sauvegarder le résultat d’une recherche sous la forme d’une collection à qui est associée une URL. Celle-ci peut être communiquée pour autoriser l’accès d’un tiers à ladite collection. La collection peut être « dynamique », c’est-à-dire régulièrement mise à jour si de nouveaux documents répondent à la requête associée.

Un bémol toutefois : il suffit d’avoir l’URL pour accéder à la collection, l’accès n’est pas limité par mot de passe, ce qui soulève une question de confidentialité.

Notre avis :

L’affichage des réponses est incontesta­blement très réussi. Il est intuitif, attrayant, et donne envie d’utiliser ce service.

Figure 7. Usage de la fonction « Family option »

Les fonctions d’analyse des résultats : larges possibilités, à condition d’avoir en tête quelques spécificités

Une analyse orientée documents individuels plus que famille

Disons-le d’emblée, en ce qui concerne la palette de fonctionnalités et la qualité de l’affichage, on ne peut être qu’impressionné.

Cependant, The Lens ne semble pas encore en mesure d’appliquer cette large palette sur des familles de brevets. Seuls les documents individuels sont analysés, quel que soit par ailleurs le kind code du document.

Si l’on part de l’approximation - pas tout à fait exacte, cela pourrait faire l’objet d’un autre article - qu’une famille est équivalente à une invention, en l’état, il est possible de déterminer le nombre de familles (d’inventions) présentes dans un lot de réponses - via la commande de regroupement par familles simples ou étendues disponible au niveau de l’affichage - mais dans la mesure où ces familles ne peuvent être analysées qu’en tant que familles, il n’est pas possible par analyse de la priorité la plus ancienne de chaque famille d’obtenir une répartition par années d’origine de celles-ci.

Si l’on s’intéresse à la portée territoriale des inventions cette fois, on note le même travers : il n’est pas possible de déterminer via l’analyse des familles, le nombre d’inventions d’une entreprise présentes dans tel ou tel pays.

Dit autrement, je ne peux pas dire « cette entreprise a produit en 5 ans 30 inventions, dont 20 visent la France, 15 l’Europe (code EP), 10 le monde (code WO), 8 les USA (code US), etc.». Sur Espacenet, une telle analyse est permise.

Dans l’affichage ci-contre (cf. Figure 7. Usage de la fonction « Family option ») , nous avons obtenu 242 documents, qui peuvent être de tout type (demande A1, brevet B1, rapport de recherche A3 ….). La fonction « Family option » nous permet non pas de regrouper par familles, mais plus précisément de ne conserver qu’un document par famille, le document choisi pour cet affichage étant celui ayant l’indice de pertinence le plus élevé par rapport à la requête. L’utilisation de cette fonction nous fait passer à l’écran où nous avons non plus 242, mais 52 enregistrements représentatifs de 52 familles (étendues, ici). Néanmoins, quel que soit l’affichage choisi, l’analyse est ensuite effectuée sur la totalité des documents individuels (les 242 dans notre exemple).

L’analyse par code pays nous donne par exemple 82 documents FR, mais il peut s’agir de documents de tout type (A1, A2, B1, etc.). Un enchainement de X stades de publication suivant un même dépôt compte pour X et pas pour un. Tous les autres diagrammes (analyse des codes CIB, des déposants, des inventeurs, etc.) doivent être interprétés en prenant en compte cet élément ; il va de soi que les codes, déposants, inventeurs, pays, etc. en relation avec des titres étant passés par de multiples étapes (A1 … B3) seront surreprésentés.

Une solution peut consister à cibler la recherche sur les demandes de brevet (via les filtres), puis à effectuer l’analyse ensuite. Mais ce type d’astuce ne sera pas forcément très évident pour le débutant.

Nonobstant cette réserve, les possibilités d’analyse sont très vastes, beaucoup plus que sur la plupart des autres bases de données en accès libre.

Un diagramme intéressant permet de classer les demandes de brevets en fonction du nombre de fois qu’elles ont été citées. Il est aussi possible de créer des diagrammes customisés.

Notre avis :

The Lens propose une palette très riche pour un service gratuit, mais avec deux éléments à bien garder en tête, à savoir que The Lens analyse des documents individuels et pas des familles, et qu’en outre dans cette analyse tous les types de document sont considérés au même niveau (demandes de brevet, brevets délivrés). Des précautions sont donc à prendre afin d’éviter des conclusions erronées.

Des fonctions d’assistance très fournies mais à compléter

The Lens offre sur son site une assistance assez fournie en tutoriels ou pages d’explications couvrant différents aspects de l’interface. Mais assez curieusement, malgré cette abondance, il manque en premier lieu un manuel de référence, un miniguide, et des informations basiques font défaut, comme la liste des qualificateurs de champ, ou une information détaillée sur la couverture de la base de données.

Conclusion

Disons-le, The Lens est une base de données très agréable d’utilisation, la conception de l’interface graphique est très séduisante, intuitive, pouvant apparaître simple, combinant un menu facile d’utilisation pour le débutant avec un langage de commande qui séduira le professionnel.

Associé à un nombre très vaste de champs cherchables, ce langage permet de répondre à certaines questions qu’il est difficile de traiter sur d’autres services gratuits. L’affichage des réponses est un point fort du service, le design des écrans est particulièrement réussi. La palette des outils d’analyse, encore étendue dans la nouvelle version, impressionnera. Les possibilités d’export sont d’un très bon niveau pour un service gratuit, et les aides assez riches. Ce résultat est remarquable venant d’une équipe aux ressources relativement limitées par rapport à d’autres acteurs du domaine.

Toutefois, lorsque l’on se plonge plus avant dans le produit, on ne peut s’empêcher de penser que si le contenant est très séduisant, le contenu mériterait d’être complété et précisé, notamment côté texte intégral. Quant aux fonctionnalités, certaines mériteraient quelques ajustements.

Il conviendrait en particulier :

De préciser le contenu de la base de données : quel type d’information est disponible pour quels offices, quels types de documents et quelles périodes, quelle est la dernière date de publication chargée pour chaque office ;

D’enrichir le contenu en matière de texte intégral ;

De traiter les 11 millions de documents de catégorie « unknown » ;

De lever certaines limitations du menu de recherche avancé ;

D’autoriser une analyse statistique sur les familles, et de distinguer au sein de cette analyse les différents types de document.

The Lens évolue toutefois rapidement. Les équipes de The Lens ont ainsi annoncé l’ ajout prochain du texte intégral pour d’autres offices, notamment les documents allemands et canadiens. Le traitement des documents de catégorie « unknown » est en cours et leur nombre devrait significativement diminuer. Un accès commun aux brevets et aux publications scientifiques est aussi en projet.

Une chose est certaine : The Lens est un produit prometteur, à surveiller, et à avoir assurément en tête lorsque l’on est en quête d’un service de recherche brevet gratuit.

Pour finir, faut-il conseiller d’utiliser The Lens ?

Pour effectuer une recherche préliminaire, sans aucun doute. Oui aussi pour un utilisateur débutant souhaitant aborder les bases de données brevet, car The Lens offre l’avantage incomparable d’offrir une « expérience client » très positive : c’est simple, convivial et surtout très agréable d’utilisation.

The Lens peut également répondre à des besoins très spécifiques que les autres services gratuits ne permettent pas de satisfaire.

Lorsque l’on recherche une certaine exhaustivité, la couverture en texte intégral proposée par The Lens, plus limitée que sur d’autres sources d’information, fait que, selon le résultat obtenu, on conseillera de combiner une recherche sur ce service avec une recherche sur une autre base de données.