Mediatree veut faire profiter les veilleurs et professionnels de l’information de sa technologie de veille audiovisuelle

Aurélie VATHONNE
Bases no
380
publié en
2020.04
1359
Acheter ce no
Tags
veille audiovisuelle | multimédia | professionnel de l'information
Mediatree veut faire profiter les veilleurs et ... Image 1

Si la société Mediatree a été créée dès 2007 et se proclame « leader de la veille audiovisuelle en France », elle reste pourtant méconnue des professionnels de l’information. Grâce à des technologies de pointe brevetées, cette société française est en mesure de capter et d’indexer en temps réel le contenu de plus de 5 000 chaînes de télévision et radio dans le monde.

Ses premiers clients furent des sociétés de production audiovisuelle désireuses de retrouver des extraits sonores ou vidéo et de pouvoir les réutiliser au sein d’émissions ou de documentaires. Mais ce service a très vite aussi intéressé les responsables de communication au sein de services gouvernementaux, de sociétés de grandes marques ou d’associations, qui souhaitaient disposer d’un outil leur permettant de couvrir les médias audiovisuels pour y réaliser toutes sortes de recherches, de veilles d’image ou de réputation.

Mediatree s’est également beaucoup développée jusqu’ici en « marque blanche » ou plus exactement sous forme d’API pour d’autres sociétés évoluant dans le domaine de la veille. Son service, qui repose sur une technologie de speech-to-text, est ainsi intégré au sein de nombreux services bien connus des veilleurs : Europresse, Tagaday, Akio/Spotter, etc.

Depuis le début de l’année 2020, Mediatree cherche à se faire mieux connaître auprès des professionnels de l’information. Son service de veille audiovisuelle accessible sur le web, baptisé tout simplement Keywords, est proposé, avec un tarif adapté, directement aux veilleurs et documentalistes, à partir de 5 000 € HT.

Un large corpus de chaînes

La page d’accueil du service propose, à l’image de Google, une simple zone de saisie dans laquelle on est invité à « taper quelque chose pour rechercher ». La recherche s’effectue en standard sur 619 chaînes dont 540 chaînes françaises (approximativement 200 chaînes de télévision et 340 chaînes radio), mais de nombreuses autres chaînes peuvent être activées immédiatement (plus de 2 000 chaînes) ou encore sur demande, la couverture annoncée de plus de 5 000 chaînes correspondant aux chaînes disponibles sur leurs positions satellites actuelles.

Ce nombre « théorique » de chaînes change tous les jours, avec l’arrivée de nouvelles disponibilités comme par exemple tout récemment plusieurs chaînes diffusées en Chine, en Grèce, en Italie, au Nigeria, au Qatar, au Ghana, en Turquie, en Algérie, en Bulgarie, etc. Le critère de disponibilité repose à la fois sur la demande exprimée par les clients et sur les marchés visés par Mediatree.

La couverture des chaînes américaines (1472) canadiennes (50) et brésiliennes (168), sera le prochain déploiement 2020.

Une transcription en temps réel ou presque

Tout le contenu des chaînes radio et télévisions disponibles au sein d’un compte (le nombre de chaînes étant variable en fonction des besoins et demandes des clients), fait l’objet d’une transcription en continu qui transforme chaque mot prononcé à l’antenne en texte interrogeable par mot-clé. Deux méthodes différentes sont utilisées pour réaliser cette transcription :

  1. La première utilise la récupération d’éventuels sous-titres, et génère des résultats très fiables, comme dans une recherche full texte classique. Ce type de résultat est marqué du sigle DVB (pour Digital Video Broadcasting), la norme qui définit la méthode de transmission des services télévisés (signal vidéo, signal audio, mais aussi d’éventuels sous-titres qui sont utilisés ici).
  2. La seconde génère le texte à la volée et de façon automatisée, grâce à une technologie qui transforme automatiquement un signal audio en texte. Ces résultats sont nécessairement plus aléatoires, et sujets à des approximations plus nombreuses en comparaison de la première méthode. On imagine en effet assez aisément que le logiciel qui permet ce type de prouesse aura parfois du mal à identifier les mots corrects selon qu’ils sont bien ou mal prononcés, avec un accent, de la musique de fond, etc.

Ces résultats sont marqués du sigle S2T (pour speech-to-text). Le modèle de langage sur lequel repose cette technologie est enrichi chaque semaine et de nouvelles correspondances entre une prononciation et un mot écrit sont créées, en partie grâce aux retours clients qui contribuent à l’amélioration de l’outil.

Des possibilités de recherche restreintes

Précisons que le ou les mots-clés entrés dans la zone de recherche doivent être saisis avec la bonne orthographe, et non phonétiquement, surtout et y compris pour les noms de sociétés. Un test avec une recherche sur la société allemande Zeiss puis sur plusieurs écritures phonétiques possible (Zayss, zaÏsse, etc.) nous a confirmé que seule la première requête permet d’obtenir des résultats.

Le pictogramme représentant un entonnoir permet d’accéder à des filtres ou paramètres supplémentaires.

La date de diffusion peut être limitée à moins d’une heure, moins d’un jour, moins d’une semaine, moins d’un mois ou encore être personnalisée. L’antériorité maximale, indiquée ici par l’option « date indifférente » est d’un an, tandis que la mise à jour des nouveaux contenus s’effectue en temps réel quasiment à la minute près.

Le corpus de recherche peut être précisé en recherchant uniquement au sein de certaines chaînes. Malheureusement, pour effectuer cette opération, on doit sélectionner les chaînes une par une au sein d’une liste déroulante.

Il existe bien dans les paramètres du compte, une possibilité de créer des catégories de chaînes personnalisées, mais curieusement ces catégories ne sont pas réutilisables dans l’interface de recherche. Pour le moment, elles ne servent qu’à filtrer la visualisation du « Guide TV » (grille de programmes).

Enfin l’option « Chercher tout » qu’il est possible de cocher ou décocher, porte assez mal son nom puisqu’elle permet en réalité d’effectuer la recherche d’une expression exacte. Les possibilités de recherche sont d’ailleurs au total très restreintes puisqu’il est seulement possible de chercher :

  • soit un seul mot-clé
  • soit plusieurs mots-clés séparés d’un espace, ce qui équivaut à les relier par l’opérateur OU
  • soit plusieurs mots-clés en cochant l’option « Chercher tout » qui équivaut à la recherche « entre guillemets »

Une liste de résultats clairement lisible

La liste de résultats est classée par ordre antéchronologique avec pour chacun : le logo de la chaîne au sein de laquelle a été retrouvé l’extrait, la mention SVB ou S2T (voir plus haut), la date et l’heure exacte de diffusion, une image miniature de l’extrait (dans le cas des chaînes de télévision), et enfin un extrait textuel de 3 ou 4 lignes où figure(nt) le(s) mot(s)-clé(s) de recherche sur­ligné(s) en jaune
(voir figure 2).

image154593 opt

Figure 2 : liste de résultats au sein du web-service Keywords, de Mediatree

Le bouton [Media] disponible pour chaque résultat permet d’accéder en ligne à la visionneuse au sein de laquelle un extrait audio ou vidéo de 6 min au total, pourra être écouté/regardé. Au fur et à mesure de l’écoute/du visionnage, le texte de la transcription défile sous la visionneuse, permettant également de naviguer plus facilement au sein de l’extrait.

Enfin une option d’alerte, accessible dans les paramètres sous la rubrique « Mes mots-clés » permet d’associer un mot-clé à une fréquence (temps réel, une, deux ou trois fois par jour, une fois par semaine) puis d’être alerté par e-mail à la fréquence choisie, lorsque le mot-clé est diffusé au sein d’une émission radio ou télé.

Quelle différence avec le service offert par Tagaday ?

Par ailleurs, ce service de veille audio­visuelle est notamment disponible, en option, au sein du service Tagaday (voir notre article « EDD devient Aday », BASES n° 379, Mars 2020), avec le même fonctionnement, à quelques petites différences près.

Tout d’abord, les possibilités de recherche disponibles sur Tagaday sont naturellement bien plus sophistiquées puisqu’on peut utiliser tous les opérateurs offerts sur ce service de veille média, incluant l’opérateur AND, les opérateurs de proximité, de fréquence, les parenthèses, etc.

En revanche, la liste de résultats obtenue est de prime abord bien plus lisible sur Keywords, faisant apparaître très clairement le mot de recherche en jaune.

Enfin, sur certaines requêtes, il peut exister des différences dans le nombre de résultats obtenus sur l’un et l’autre service, car l’algorithme de recherche semble se comporter de façon plus floue sur Keywords, permettant par la même occasion de capter des résultats pertinents qu’on retrouve de façon moins évidente sur Tagaday.

Finalement, on est partagé entre la puissance impressionnante de Keywords qui permet, en temps réel, d’interroger n’importe lequel des mots prononcés à l’antenne de plus de 5 000 chaînes dans le monde, et le peu d’importance accordée aux possibilités de recherche ou de veille, que ce soit pour la combinaison de mots-clés ou la recherche au sein de sous-groupes de chaînes, par exemple.

Cela témoigne du fait que, jusqu’à aujourd’hui du moins, les professionnels de l’information n’ont pas fait partie des cibles privilégiées. Monsieur Philippe Mendes, Président de Mediatree affirme cependant que ces ajustements techniques ne sont pas compliqués à développer, et l’on peut espérer que la société restera à l’écoute de cette nouvelle clientèle qu’elle essaye de développer.