Une transcription en temps réel ou presque
Tout le contenu des chaînes radio et télévisions disponibles au sein d’un compte (le nombre de chaînes étant variable en fonction des besoins et demandes des clients), fait l’objet d’une transcription en continu qui transforme chaque mot prononcé à l’antenne en texte interrogeable par mot-clé. Deux méthodes différentes sont utilisées pour réaliser cette transcription :
- La première utilise la récupération d’éventuels sous-titres, et génère des résultats très fiables, comme dans une recherche full texte classique. Ce type de résultat est marqué du sigle DVB (pour Digital Video Broadcasting), la norme qui définit la méthode de transmission des services télévisés (signal vidéo, signal audio, mais aussi d’éventuels sous-titres qui sont utilisés ici).
- La seconde génère le texte à la volée et de façon automatisée, grâce à une technologie qui transforme automatiquement un signal audio en texte. Ces résultats sont nécessairement plus aléatoires, et sujets à des approximations plus nombreuses en comparaison de la première méthode. On imagine en effet assez aisément que le logiciel qui permet ce type de prouesse aura parfois du mal à identifier les mots corrects selon qu’ils sont bien ou mal prononcés, avec un accent, de la musique de fond, etc.
Ces résultats sont marqués du sigle S2T (pour speech-to-text). Le modèle de langage sur lequel repose cette technologie est enrichi chaque semaine et de nouvelles correspondances entre une prononciation et un mot écrit sont créées, en partie grâce aux retours clients qui contribuent à l’amélioration de l’outil.
Des possibilités de recherche restreintes
Précisons que le ou les mots-clés entrés dans la zone de recherche doivent être saisis avec la bonne orthographe, et non phonétiquement, surtout et y compris pour les noms de sociétés. Un test avec une recherche sur la société allemande Zeiss puis sur plusieurs écritures phonétiques possible (Zayss, zaÏsse, etc.) nous a confirmé que seule la première requête permet d’obtenir des résultats.
Le pictogramme représentant un entonnoir permet d’accéder à des filtres ou paramètres supplémentaires.
La date de diffusion peut être limitée à moins d’une heure, moins d’un jour, moins d’une semaine, moins d’un mois ou encore être personnalisée. L’antériorité maximale, indiquée ici par l’option « date indifférente » est d’un an, tandis que la mise à jour des nouveaux contenus s’effectue en temps réel quasiment à la minute près.
Le corpus de recherche peut être précisé en recherchant uniquement au sein de certaines chaînes. Malheureusement, pour effectuer cette opération, on doit sélectionner les chaînes une par une au sein d’une liste déroulante.
Il existe bien dans les paramètres du compte, une possibilité de créer des catégories de chaînes personnalisées, mais curieusement ces catégories ne sont pas réutilisables dans l’interface de recherche. Pour le moment, elles ne servent qu’à filtrer la visualisation du « Guide TV » (grille de programmes).
Enfin l’option « Chercher tout » qu’il est possible de cocher ou décocher, porte assez mal son nom puisqu’elle permet en réalité d’effectuer la recherche d’une expression exacte. Les possibilités de recherche sont d’ailleurs au total très restreintes puisqu’il est seulement possible de chercher :
- soit un seul mot-clé
- soit plusieurs mots-clés séparés d’un espace, ce qui équivaut à les relier par l’opérateur OU
- soit plusieurs mots-clés en cochant l’option « Chercher tout » qui équivaut à la recherche « entre guillemets »
Une liste de résultats clairement lisible
La liste de résultats est classée par ordre antéchronologique avec pour chacun : le logo de la chaîne au sein de laquelle a été retrouvé l’extrait, la mention SVB ou S2T (voir plus haut), la date et l’heure exacte de diffusion, une image miniature de l’extrait (dans le cas des chaînes de télévision), et enfin un extrait textuel de 3 ou 4 lignes où figure(nt) le(s) mot(s)-clé(s) de recherche surligné(s) en jaune
(voir figure 2).
Figure 2 : liste de résultats au sein du web-service Keywords, de Mediatree
Le bouton [Media] disponible pour chaque résultat permet d’accéder en ligne à la visionneuse au sein de laquelle un extrait audio ou vidéo de 6 min au total, pourra être écouté/regardé. Au fur et à mesure de l’écoute/du visionnage, le texte de la transcription défile sous la visionneuse, permettant également de naviguer plus facilement au sein de l’extrait.
Enfin une option d’alerte, accessible dans les paramètres sous la rubrique « Mes mots-clés » permet d’associer un mot-clé à une fréquence (temps réel, une, deux ou trois fois par jour, une fois par semaine) puis d’être alerté par e-mail à la fréquence choisie, lorsque le mot-clé est diffusé au sein d’une émission radio ou télé.
Quelle différence avec le service offert par Tagaday ?
Par ailleurs, ce service de veille audiovisuelle est notamment disponible, en option, au sein du service Tagaday (voir notre article « EDD devient Aday », BASES n° 379, Mars 2020), avec le même fonctionnement, à quelques petites différences près.
Tout d’abord, les possibilités de recherche disponibles sur Tagaday sont naturellement bien plus sophistiquées puisqu’on peut utiliser tous les opérateurs offerts sur ce service de veille média, incluant l’opérateur AND, les opérateurs de proximité, de fréquence, les parenthèses, etc.
En revanche, la liste de résultats obtenue est de prime abord bien plus lisible sur Keywords, faisant apparaître très clairement le mot de recherche en jaune.
Enfin, sur certaines requêtes, il peut exister des différences dans le nombre de résultats obtenus sur l’un et l’autre service, car l’algorithme de recherche semble se comporter de façon plus floue sur Keywords, permettant par la même occasion de capter des résultats pertinents qu’on retrouve de façon moins évidente sur Tagaday.
Finalement, on est partagé entre la puissance impressionnante de Keywords qui permet, en temps réel, d’interroger n’importe lequel des mots prononcés à l’antenne de plus de 5 000 chaînes dans le monde, et le peu d’importance accordée aux possibilités de recherche ou de veille, que ce soit pour la combinaison de mots-clés ou la recherche au sein de sous-groupes de chaînes, par exemple.
Cela témoigne du fait que, jusqu’à aujourd’hui du moins, les professionnels de l’information n’ont pas fait partie des cibles privilégiées. Monsieur Philippe Mendes, Président de Mediatree affirme cependant que ces ajustements techniques ne sont pas compliqués à développer, et l’on peut espérer que la société restera à l’écoute de cette nouvelle clientèle qu’elle essaye de développer.