Des nouveaux moteurs qui tirent parti des contenus multimédia - Dossier spécial Search solutions 2019

Carole Tisserand-Barthole
Bases no
376
publié en
2019.12
1422
Acheter ce no
Tags
recherche Web | multimédia | conférences salons
Des nouveaux moteurs qui tirent parti des contenus ... Image 1

Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.

On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.

Découvrons ici des projets et moteurs multimédia innovants.

Lire aussi :

Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Le SEO et la veille au défi des moteurs


 

 


Un moteur spécialisé qui tire parti des radiographies présentes dans les hôpitaux

Le premier moteur, ContextFlow, a un positionnement de niche puisqu’il vise un public de radiologues : http://contextflow.com/front-page.

A l’origine, il s’agit d’un projet de recherche appelé Kreshmoi développé dans une Université autrichienne. Le projet partait du principe qu’au sein des hôpitaux, subsiste une quantité très importante d’images radio que plus personne n’utilise une fois le diagnostic posé. Était-il possible de créer un moteur qui se serve de cette matière et des rapports médicaux qui sont associés à ces radiographies (qui sont non structurés et donc difficilement « recherchables » par eux-mêmes) ? C’était donc le but initial du projet.

Pour les radiologues, le diagnostic n’est pas difficile à poser dans 80% des cas. Mais dans 20% des cas, il est difficile de déterminer précisément le problème et tirer parti d’autres radiographies et diagnostics pourrait être une solution intéressante.

Mais jusqu’à présent, les radiologues ne disposaient que d’outils de recherche textuels pour essayer de déterminer un diagnostic. Cela suppose donc déjà de savoir caractériser avec des mots ce que cela pourrait être et de faire des hypothèses.

Les chercheurs du projet Kreshmoi ont ainsi créé un moteur de recherche visuel à partir d’un corpus d’images radio. Le radiologue charge la radio sur laquelle il a du mal à poser un diagnostic, indique quelle zone précise l’intéresse et l’outil se charge d’aller rechercher des images radio similaires et les rapports médicaux associés.

Le moteur fait également le lien avec d’autres sources comme Radiopédia (le Wikipédia des radiologues), les éditeurs scientifiques du domaine, etc. afin d’aider le radiologue à établir un diagnostic.

Par la suite, le projet Kreshmoi est devenu la startup ContextFlow qui continue aujourd’hui de se développer.

Impact sur la recherche d’information

Si ce moteur n’est réellement des­tiné qu’aux radiologues ou autres professions médicales, il confirme bien une tendance où des start-ups viennent aujourd’hui se positionner sur des créneaux de recherche très spécialisés.

Dans tous les domaines, il y a des quantités de données souvent non structurées, disponibles numérique­ment, qui pourraient être utiles dans des contextes de veille et de recherche d’information.

Mais elles sont inutilisables en l’état car stockées dans les organisations et non intégrées dans des outils de recherche existants.

Même si les acteurs traditionnels de la recherche (moteurs, bases de données, etc.) tendent à intégrer de nouvelles formes de contenus, notamment multimédia, dans leurs outils, il faut généralement attendre que de nouveaux acteurs s’y intéressent et développent des outils de recherche gratuits, freemium ou payants autour de ces données.

On aura donc intérêt à mettre en place une veille pour détecter des start-ups spécialisées sur son domaine d’activité.

La recherche appliquée aux partitions musicales

Les technologies de recherche, de résumé et d’indexation des contenus audio ont beaucoup progressé depuis les années 2000.

Mais la plupart des acteurs sur ce créneau l’utilisent dans un but commercial pour persuader des internautes de télécharger des chansons qu’ils pourraient apprécier à l’image de Spotify ou Deezer. Il n’est que très rarement question d’exploiter les contenus que l’on a déjà dans son fond ou dans sa bibliothèque personnelle.

Aujourd’hui encore, la recherche sur des contenus audio se fait sur les métadonnées et pas le contenu intégral et porte donc uniquement sur l’indexation (titre, des­criptif, mots-clés associés, tags, etc.) et pas ce qu’il contient comme les notes ou les paroles.

Le projet mené à la London University et présenté lors du Search Solutions s’intéresse au contenu même des partitions de musique : https://f-tempo.org/

L’idée étant de faire quelque chose de similaire à Google Books qui océrise les livre mais pour la musique.

On appelle cela OMR (Optical Music Recognition).

Chaque élément de la partition est codé sous la forme de lettres et de chiffres. Une fois codé, on peut ainsi rechercher des partitions par similarité et retrouver des versions différentes d’une même partition ou même des morceaux plagiés.

Impact sur la recherche d’information

Là encore, le développement d’un moteur très spécialisé est intéressant et il ne s’agit pas ici d’une start-up mais d’un projet au sein d’une université.

On aura également intérêt à surveiller les projets de recherche développés par les départements information retrieval/informatique des universités.

Ces projets, potentiellement intéres­sants pour la recherche professio­n­nelle sont très difficilement détec­tables par hasard car il y a peu de communication sur leur existence, à part lors de colloques ou conférences spé­cialisées et ils sont généralement peu visibles dans les moteurs de recherche.