On trouve sur le site d’Azure une infographie illustrant le fonctionnement de l’outil et de tous les éléments qu’il est capable d’extraire à partir d’un fichier audio et vidéo (voir Figure 1. Illustration du fonctionnement d’Azure Video Indexer)
Figure 1. Illustration du fonctionnement d’Azure Video Indexer (source : https://docs.microsoft.com/en-us/azure/azure-video-indexer/video-indexer-overview)
Ce qu’il faut savoir pour utiliser tout le potentiel d’Azure Video Indexer
Azure Video Indexer est disponible à l’adresse suivante : https://www.videoindexer.ai/
Étape 1 : Se créer un compte
Pour commencer à l’utiliser, il faut se connecter à l’outil.
Trois méthodes de connexion sont possibles :
- Avec un compte Google (un compte Gmail par exemple) ;
- Avec les identifiants de son compte Microsoft professionnel (dont on dispose si l’entreprise utilise Microsoft 365) ;
- Avec un compte personnel Microsoft.
Étape 2 : Récupérer les vidéos et podcasts aux formats MP3 ou MP4
Avant d’utiliser l’outil, il faut récupérer les vidéos ou podcasts que l’on souhaite analyser aux formats MP3 pour les contenus audio et mp4 pour les contenus vidéo. D’autres formats sont également disponibles.
Pour ce faire, rien de plus simple, il suffit de récupérer l’URL de la vidéo et d’utiliser un outil en ligne gratuit qui permet de télécharger les vidéos et contenus audio en ligne en fichier MP3 ou mp4.
Il existe des centaines d’outils de ce type sur le Web que l’on pourra identifier en effectuant une recherche sur Google du type :
convertisseur video mp4
converter video mp4
convertisseur video youtube mp4
Voici quelques outils que nous avons déjà eu l’occasion de tester et qui fonctionnent bien :
- YouTube Video Downloader
- MP3 YouTube
- Video Download Helper
- DDLVID - utile pour télécharger des vidéos depuis les réseaux sociaux.
Ces outils étant très instables, il faut être en mesure d’en identifier de nouveaux si ceux cités venaient à ne plus fonctionner.
Ces outils ont tous un fonctionnement similaire :
- On entre l’URL de la vidéo en ligne ;
- On choisir le format de sortie (MP3, MP4ou autre) ;
- On clique sur convertir/convert ;
- On télécharge ensuite le fichier MP3 ou MP4 sur son ordinateur.
Étape 3 : Charger la vidéo ou le podcast dans Azure Video Indexer
L’étape suivante consiste à charger le fichier MP3/MP4 dans l’outil.
On cliquera sur « Charger » dans l’interface d’accueil.
On devra alors choisir :
- La langue source de la vidéo/fichier audio (très important - il ne faut pas se tromper) ;
- Si cette vidéo doit être chargée en privé ou public (nous conseillerons privé) et donc visible ou non par d’autres internautes ;
- Si on indexe l’audio et la vidéo, l’audio seulement ou la vidéo seulement ;
- Puis on lance le téléchargement.
Attention : Le fichier ne doit pas dépasser 30 Go de taille et 4 heures de durée. L’indexation n’est pas instantanée et peut prendre plusieurs dizaines de minutes selon la taille de la vidéo.
L’outil est capable d’indexer des vidéos et contenus audio uniquement dans les langues suivantes : arabe, chinois, tchèque, néerlandais, anglais, finnois, français, allemand, hébreu, hindi, italien, japonais, coréen, norvégien, persan, polonais, portugais, russe, espagnol, suédois, thai et turc.
Figure 2. Charger une vidéo ou podcast sur Azure Video Indexer
Étape 4 : Explorer toutes les fonctionnalités offertes sur une vidéo
Une fois la vidéo indexée, il suffit de cliquer sur la petite icône de la vidéo pour visualiser toutes les données extraites et analysées par Azure Video Indexer.
Nous avons fait le test sur une vidéo provenant du site du Monde sur la viande de laboratoire.
Figure 3. Données extraites par Azure Video Indexer à partir d’une vidéo
Explorer toutes les entités extraites
Sur l’écran principal, on visualise la vidéo et, sur la droite, toutes les données extraites de la vidéo :
- Les visages de personnes apparaissant dans la vidéo. Et s’il s’agit d’une personnalité suffisamment connue, on peut même avoir le nom et prénom de la personne, sa profession, un lien vers sa biographie et un lien pour rechercher de l’information sur cette personne dans Bing ;
- Les grands thèmes et sujets traités dans la vidéo (santé par exemple) ;
- Les effets audio (silence par exemple) ;
- Une liste de mots-clés prononcés dans la vidéo (viande cultivée, souffrance animale par exemple) ;
- Une liste de labels (c’est-à-dire d’éléments visuels repérés par l’IA comme des visages, des lunettes, une vache sans que le terme ne soit nécessairement cité) ;
- Une liste d’entités nommées (personnes, lieux ou marques) ;
- Des émotions détectées dans la vidéo (colère, tristesse, etc.) ;
- La vidéo découpée en séquences.
Pour chaque élément, on peut voir à quel(s) endroit(s) de la vidéo cela apparaît (les moments précis où le visage de telle personne apparaît, le moment précis où telle entité nommée est citée, etc.). Il suffit alors de cliquer dessus pour que la vidéo se mette en marche à l’endroit correspondant.
Explorer la transcription
- L’outil réalise également une transcription en speech to text et à laquelle on peut accéder dans l’onglet « Chronologie ».
Par défaut, on visualise la transcription simple dans la langue originale de la vidéo avec un système d’horodatage permettant de se rendre directement au bon endroit dans la vidéo.
- On dispose également d’un moteur de recherche qui recherche uniquement sur une chaîne de caractères et non des mots-clés.
- Mais l’outil va encore plus loin même si ce n’est pas visible. En plus de la transcription en speech to text, l’outil propose une fonctionnalité d’océrisation qui permet d’extraire tout ce qui est écrit textuellement sur l’image (sous-titres, schémas contenant des éléments textuels).
Ces fonctionnalités spécifiques sont disponibles dans l’onglet « Afficher ». Cela permettra alors de visualiser et rechercher sur les contenus textuels qui ne sont pas prononcés à l’écran.
- Dernière fonctionnalité autour de la transcription et pas des moindres : la traduction automatique de la transcription. Une soixantaine de langues sont disponibles.
Notre avis
Nous avons été très impressionnés par la qualité et la puissance des fonctionnalités de cet outil qui, dans sa version gratuite, peut satisfaire les besoins de nombreux professionnels. En plus, l’outil est très simple à prendre en main.⚠️Mais comme tout outil, il y a quelques limites et inconvénients à connaître.Quand une vidéo mélange plusieurs langues
Tout d’abord, l’outil se focalise sur une langue en particulier, celle indiquée lorsque l’on charge le fichier MP3 ou MP4. Si la vidéo mélange plusieurs langues, l’outil ne sera pas capable de la prendre en compte et négligera l’une des langues.
Dans notre exemple, certains intervenants s’exprimaient en anglais et leurs propos étaient donc sous-titrés en français. Leurs propos en anglais n’étaient pas pris en compte dans la transcription, mais les sous-titres en français l’étaient bien grâce à la fonctionnalité OCR. Il n’y avait donc finalement pas de perte d’information dans ce cas précis si ce n’est une légère perte de nuance ou de sens du fait de la traduction.
Une couverture des langues encore incomplète
L’outil est capable de travailler sur 22 langues, ce qui est très honorable, mais pas toujours suffisant. Dans le cas de langues non prises en compte par Azure Video Indexer, on conseillera alors l’utilisation d’outils et services payants comme :
- Happyscribe - https://www.happyscribe.com
- Amberscript - https://www.amberscript.com
- Authôt - https://www.authot.com/fr/
- Temi.com - https://www.temi.com/
- Sonix - https://sonix.ai/fr
- Vocalmatic - https://vocalmatic.com/fr
L’IA n’est jamais exhaustive
L’outil n’est pas complètement exhaustif dans les données qu’il extrait. Certains noms de marques, mots-clés, nom de lieu ou de personnes ne sont pas toujours extraits. On ne peut donc pas garantir une totale exhaustivité.
Il y a des erreurs de transcriptions notamment pour les noms propres
La transcription est globalement de très bonne qualité, mais il subsiste quelques erreurs notamment pour les noms de personnes, de lieux ou les marques. Si on recherche spécifiquement un mot-clé, on a quand même intérêt à passer rapidement en revue la transcription ou à rechercher des variantes et autres formes du mot-clé qui pourraient avoir été mal orthographiées.
La traduction permet un premier niveau de compréhension
La traduction (nous avons testé une vidéo en français avec une traduction en anglais) permet de comprendre le sens général d’une vidéo ou contenu audio, mais la qualité ne sera pas suffisante pour l’utiliser directement dans un livrable. Il nous a d’ailleurs semblé que la qualité était un peu moindre que ce que l’on peut avoir sur Deepl ou Google Translate. Comme il s’agit d’un produit Microsoft, il est hautement probable qu’il utilise Microsoft Translator.