Minesoft/Patbase lance Chemical Explorer

François Libmann
Bases no
335
publié en
2016.03
830
Acheter ce no
Tags
chimie | serveur de bases de données | information scientifique et technique
Minesoft/Patbase lance Chemical Explorer Image 1

Patbase est, avec Orbit et TotalPatent, l’un des produits commerciaux offrant l’accès à l’essentiel des brevets déposés dans le monde depuis très longtemps, avec une forte proportion de brevets disponibles en texte intégral dont beaucoup sont traduits en anglais, et un puissant langage de recherche.

De nombreuses banques de données brevets sont, par ailleurs, accessibles sur les serveurs Proquest Dialog et STN, ce dernier ayant comme on le sait, une offre spécifique dans le domaine de la chimie.

Minesoft vient d’innover, justement dans le domaine de la chimie, avec le lancement de Chemical Explorer.

Ce service qui apparaît dans l’onglet « Search » de Patbase a pour objet d’identifier des composants chimiques et, éventuellement des composants analogues présents dans le texte des brevets.

Plusieurs approches sont proposées pour définir le composé à rechercher :

  • Il est possible de dessiner la structure chimique en utilisant un éditeur spécifique dont les outils sont disponibles dans des barres entourant l’écran.
  • On peut aussi importer directement certaines structures chimiques dans les formats MOL et SMILES.
  • L’outil Lookup Compounds permet d’entrer un terme et on se voit alors proposer une série de composés dont le nom comporte ce terme, par exemple 6’- carboxy simvastatin pour simvastatin.

Une fois la structure identifiée, on peut lancer une recherche de molécules similaires selon différents critères.

On obtient alors une liste plus ou moins étendue de structures.

Pour chacune, on trouve le dessin de la molécule, sa définition et différentes façons de l’écrire : formule, IUPAC Name, InChikey et Smiles ainsi que le poids moléculaire.

On peut en sélectionner une ou plusieurs.

Pour chaque molécule on trouve un lien vers PubChem et ChemSpider qui sont des sites spécialisés gratuits très riches en information. Un lien vers Wikipedia est aussi disponible.

Le système affiche également le nombre de revendications de brevets présents dans PatBase dans lesquelles se trouve la molécule, sous une forme ou une autre, et enfin une statistique par pays indique, pour chacun des offices, le nombre d’occurrences de la molécule dans les revendications d’une part, dans le texte complet d’autre part.

Un lien vers PatBase à partir de la ou des molécule(s) sélectionné(s) donne le résultat de la recherche avec toute une série d’options : view, browse, hits, …

L’identification des brevets pertinents se fait grâce à un outil de CNER (Chemical Name Entity Recognition), c’est à dire de reconnaissance des entités nommées dans le domaine de la chimie. Cet outil a été développé en collaboration étroite avec la société anglaise NextMove Software.

L’outil reconnaît tous les synonymes, les formules plus ou moins développées, les Registry Numbers, Il sait aussi reconnaître les noms chimiques écrits en chinois, japonais ou coréen et insère la traduction en anglais dans le texte original.

Une fois que l’on est repassé dans PatBase, on obtient donc le nombre de brevets dans lequel on trouve la molécule et on peut les visualiser comme après n’importe quelle autre recherche.

Minesoft ajoute là une nouvelle possibilité avec l’outil Textmine qu’il a développé.

On y accède à partir d’un bouton bleu situé après le numéro de brevet dans la rubrique Family. On retourne alors dans Chemical Explorer.

Textmine est un outil qui fait une analyse détaillée du contenu du brevet selon de nombreux critères que l’on peut sélectionner pour visualiser ces termes dans tout ou partie du brevet avec une surbrillance de couleur différente pour chaque terme.

Le premier critère est constitué par l’ensemble des molécules citées dans le brevet, donc pas nécessairement la/les molécule(s) de départ.

Parmi les concepts recherchables on trouve «disease». On trouve par exemple dans un brevet 89 citations de diseases (dry eye, eye disorder ulcers…) avec en tout 242 occurrences dans l’ensemble du texte du brevet.

On trouve aussi, mais pas seulement, des noms génériques (acids, parafin…), des polymères, des éléments physiques de différentes natures (one drop, 1g, 30 minute, 0,9 percent …). Ces derniers éléments sont uniquement visualisables alors que,s STN, il est possible d’effectuer des recherches sur les valeurs de plusieurs dizaines de grandeurs physiques.

Chemical Explorer prend en compte les brevets écrits en français, anglais, allemand, japonais, chinois et coréen. L’antériorité pour chaque office est celle de PatBase.


Minesoft propose avec ces outils une approche originale dans le domaine des brevets en chimie avec un ensemble d’outils innovants basés sur le Textmining adapté à la chimie.

Ces approches ne sont pas nouvelles et ont fait l’objet de plusieurs études pointant les limites de tels outils qui, bien sûr, n’ont pas manqué d’être améliorés comme cela semble être le cas ici.

Deux membres du CFIB (Club Francophone d’Information Brevet) ont fait récemment, et sur des sujets différents, une rapide comparaison entre une recherche utilisant Chemical Explorer de Minesoft et la même recherche sur CaPlus/Marpat sur STN.

Si, dans les deux cas, ils trouvent à peu près le même nombre de familles de brevets dans les deux systèmes, seule une moitié environ des familles trouvées dans un système se trouve aussi dans l’autre.

Nous n’avons pas eu connaissance du détail de ces recherches et n’avons donc pas pu analyser précisément les écarts.

On peut néanmoins avancer, aux erreurs d’expérience près, les éléments suivants :

  • D’une façon générale, les familles de brevets ne sont pas nécessairement composées de la même façon et par ailleurs, CAS rend plus explicite les titres trop imprécis. Par ailleurs, pour un pays couvert par les deux systèmes, les antériorités ne sont pas nécessairement identiques.
  • L’absence dans Chemical Explorer de brevets trouvés dans STN peut s’expliquer par le fait que Chemical Explorer ne prend pas en compte, pour le moment, les structures de Markush, et que sa couverture géographique est moins large que celle de CAS.
  • A l’inverse, pour Chemical Explorer, le délai d’apparition dans la base est très court puisque tout est automatisé alors que l’indexation manuelle/intellectuelle réalisée par Chemical Abstracts (par exemple par une centaine d’indexeurs chinois basés en Chine) prend trois semaines en Europe et aux USA, quatre semaines au Japon et un mois et demi à deux mois pour la Chine et la Corée même si un premier signalement apparaît rapidement en ligne. On notera que CAS utilise un thésaurus structuré et indexe non seulement les molécules mais aussi, par exemple les rôles.
  • Par ailleurs on peut faire une hypothèse qui reste néanmoins à vérifier : Chemical Abstracts ne prend en compte que des brevets qui relèvent spécifiquement du domaine de la chimie. Peut-être que certains brevets hors de ce champ comportent des formules chimiques qui seront retrouvées dans Chemical Explorer et pas dans CAS.

On peut donc considérer qu’il s’agit plus de produits complémentaires que concurrents surtout pour ceux qui cherchent le maximum d’exhaustivité.

Enfin rappelons que CAS, outre les brevets, indexe aussi des articles.