En dépit d’une apparente facilité, la recherche de contenus multimédia est complexe et se heurte à plusieurs difficultés
Tout d’abord, l’indexation des fichiers multimédia par les moteurs est souvent limitée : les images publiées sur les pages web sont indexées en fonction de l’intitulé du fichier, du contexte de l’image et des attributs « ALT » associés à l’image. Les moteurs peuvent également se baser sur les tags ou hashtags rajoutés aux images ou vidéos lors de la publication dans les réseaux sociaux.
En l’absence de texte, la recherche s’appuie également sur des méthodes de similarité visuelle que nous détaillerons plus loin. Attention toutefois à la part importante d’aléatoire dans les résultats de recherche, notamment via Instagram, dont les algorithmes ont été changés en 2018. Et bien sûr, il s’agit de prendre en compte les questions juridiques, les images et vidéos sont bien souvent soumises à des droits d’auteur. Enfin, à l’ère de la « post vérité », les risques de manipulation des images et vidéo sont malheureusement de plus en plus élevés et la prudence est de mise.
Les moteurs généralistes (Google, Bing, Qwant) disposent de fonctionnalités classiques de recherche d’images et de vidéos. Il est difficile de comparer d’un point de vue quantitatif leurs performances respectives, car le nombre de réponses n’apparait pas dans les pages de résultats multimédias. Les trois moteurs proposent de nombreuses options de filtrages des résultats : par taille, couleur, type (photo, dessin, GIF animé). Google permet en outre d’affiner sa recherche à partir d’une liste de mots-clés extraits du contexte des images pertinentes. Cela peut donner des idées de mots-clés complémentaires aux termes de la requête, ou faire émerger parfois des signaux faibles.
Google et Bing proposent d’ailleurs une option très intéressante pour identifier des experts concernant un sujet donné : après une recherche d’image, il s’agit de filtrer avec l’option « visage ».
Cette option se trouve chez Google dans l’onglet « types », lui-même dans « Outils ». Pour Bing, il faut cliquer sur l’onglet « personnes », puis choisir «visages uniquement » ou « tête et épaules ». Les personnes ainsi identifiées sont vraisemblablement (mais cela reste à vérifier par recoupement) des experts du domaine. On peut combiner cette astuce avec les filtres classiques des moteurs, comme par exemple la commande site:
appliquée à un site donné ou à une extension (.gouv.fr, .edu…). Google permet également, via Google Images, d’utiliser la commande filetype:
pour filtrer selon le format de l’image (JPG, GIF, PNG, BMP, SVG…ainsi que le nouveau format d’image matricielle WebP développé par Google).Moins connu, l’opérateur de Google Images src:
affiche toutes les images d’une source donnée. Par exemple, la requête src:www.total.com
affiche les images du site de Total indexées par Google.
Plusieurs moteurs et extensions de navigateurs offrent des possibilités de recherche inversée d’images. Il s’agit de rechercher des images dans l’index d’un ou plusieurs moteurs, non pas à partir d’un mot-clé mais d’une image trouvée sur le web ou uploadée depuis un disque dur ou un smartphone. La recherche est effectuée à partir du contexte de l’image, par extraction des métadonnées, et des images similaires, par comparaison des contenus.
On peut ainsi retrouver les occurrences d’une image sur plusieurs pages web ou identifier des images en relation avec le sujet de la recherche : bien pratique pour découvrir des personnes, des produits nouveaux, et ce notamment dans une langue que l’on ne maitrise pas. La recherche avancée d’images se trouve chez Google, Bing ou le moteur russe Yandex, ce dernier offrant apparemment des résultats plus précis que ses concurrents. Citons également dans ce domaine les moteurs Tineye ou Berify, ainsi que les extensions de navigateurs RevEye, Noobox Search (pour Chrome) ou Who stole my pictures, Google Image Search (pour Firefox).
La recherche d’images peut s’effectuer également via de nombreuses solutions spécialisées : citons des moteurs de recherche d’images libres de droit comme Wikimedia Commons, Everystockphoto, Pixabay… De grands stocks d’images comme Picsearch donnent accès à des photos de qualité variable. Les designers, ou tous les professionnels, peuvent acheter des licences de photos de qualité via des plateformes comme Adobe Stock ou Getty Images.
Les réseaux sociaux regorgent également de contenus multimédias, mais les possibilités de recherche ou collecte automatisée ne sont pas toujours simples.
Instagram, très lié à des usages « grand public » et mobiles, illustre le passage d’un stock d’images à un flux continu. Il existe néanmoins des moteurs spécialisés sur les contenus de ce réseau, comme Webstagram qui permet des recherches par nom d’utilisateur ou hashtags. Dans l’application Instagram comme dans le moteur Webstagram, une recherche par mots-clés permet d’identifier les hashtags les plus populaires. Il est également possible de générer un flux à partir d’un hashtag, ou d’un nom de lieu, soit à partir de l’application Instagram, soit à un outil tiers comme Queryfeed.
Pinterest, contrairement à une idée reçue, ne se limite pas qu’à des images de décoration et recettes de cuisine…on y trouve de nombreuses images pouvant se révéler stratégiques, et notamment des infographies (attention toutefois à la date des données chiffrées). On peut également, via l’application, effectuer des recherches ou mettre en place des flux pour suivre un utilisateur.
Créée dès 2004, mais un peu éclipsée par le succès d’Instagram, la plateforme Flickr héberge des milliards de photos, émanant souvent de professionnels, et généralement bien décrites et géolocalisées via des tags, géotags ou métadonnées IPTC ou EXIF. Ces métadonnées, associés à des photos prises via un appareil numérique, sont précieuses car elles peuvent indiquer la date, l’heure, ainsi que le lieu de la prise de vue, le type d’appareil, voire même les réglages et l’orientation de l’appareil. En revanche, les métadonnées Exif disparaissent généralement lorsque les photos sont publiées sur les réseaux sociaux, ou retraitées via un logiciel comme Photoshop.
Les moteurs des réseaux sociaux généralistes, Facebook et Twitter, offrent également des possibilités de filtrage de la recherche d’images ou vidéos par source, lieu, ou date. Le moteur de Twitter est riche en fonctionnalités, notamment la commande filter :image
ou filter :videos
à combiner avec une requête par mots-clés ou hashtags. Ces requêtes peuvent être automatisées grâce à la solution Tweetdeck.
Les images présentes dans Linkedin sont intéressantes également pour compléter une recherche d’experts ou de personnes-ressources.
Le monde de la vidéo sur Internet est largement dominé par YouTube, surtout depuis le déclin de son concurrent Dailymotion, racheté par le groupe Vivendi. Le moteur Google Vidéos inclut les contenus de YouTube, mais plus largement d’autres sources. On y trouve plusieurs filtres de recherche avancée (durée, date, résolution, source…). Le moteur de YouTube offre différentes possibilités de classement des résultats : par pertinence, date de mise en ligne, nombre de vues, avis…Plusieurs solutions, comme par exemple RSS Bridge permettent de générer des flux dans YouTube, à partir d’un nom d’utilisateur ou d’un mot-clé.
Vimeo est une plateforme un peu méconnue, mais très prisée des professionnels du court métrage et du clip. Ne négligeons pas non plus les grands réservoirs d’archives vidéo que sont le portail de l’INA ou encore Internet Archive.
Dans un autre registre, les applications Facebook Live et Periscope illustrent la tendance à la publication vidéo en direct. Les possibilités de collecte automatisée d’images ou vidéos via les réseaux sociaux ne sont pas toujours simples via les outils gratuits : on peut passer là encore par des solutions comme RSS Bridge, dont la pérennité n’est pas nécessairement assurée. Le plus efficace reste bien sur les nombreuses solutions (parfois onéreuses !) de « social media listening ».
Les images et vidéos sur Internet sont malheureusement parfois sorties de leur contexte, manipulées, trafiquées…Il convient donc de vérifier l’authenticité et la traçabilité de ces contenus. Les métadonnées IPTC ou EXIF mentionnées plus haut peuvent être extraites (mais pas toujours systématiquement) avec des outils comme le Jeffrey’s Image Metadata Viewer.
Concernant les vidéos, on peut utiliser la solution YouTube Data Viewer (mise en ligne par Amnesty International) qui extrait des métadonnées et peut faire de la recherche inversée à partie d’images issues de la vidéo.
L’investigation numérique (ou computer forencics) se développe avec des solutions comme Fotoforencics ou Forensically : ces outils peuvent aider à détecter des photomontages ou des photos truquées, en analysant automatiquement le niveau d’erreur (ELA pour Error Level Analysis) sur une photo au format compressé. Des niveaux de compression différents sur une même image peuvent inciter à la méfiance quant à l’authenticité d’une photo, mais l’interprétation est parfois délicate.
Les techniques de trucage atteignent en effet désormais des degrés de sophistication très poussés. La production de vidéos « deep fake » s’appuie sur l’intelligence artificielle pour générer des montages vidéos très réalistes, ouvrant la voie à toutes sortes de manipulation. Vecteur idéal pour la diffusion d’information, le multimédia devient aussi parfois source de nombreuses désinformations.