Du Dark Web au Clear Web : Aleph Networks, une nouveauté pour la veille ?

Mathilde Back
Bases no
391
publié en
2021.04
4889
Acheter ce no
Tags
dark web | recherche Web | outils de veille
Du Dark Web au Clear Web : Aleph Networks, une nouveauté ... Image 1

La société Aleph Networks, pionnière dans la cybersécurité sur le Dark Web, était présente sur le salon I-Expo/Documation 2020. A cette occasion, elle présentait son nouveau produit en cours de lancement « Aleph Search Clear » qui s’adresse à un tout nouveau public, celui de la veille concurrentielle ou stratégique et s’attaque pour le coup à un nouvel environnement Web bien connu des veilleurs : le Clear Web.

Dans cet article nous redéfinirons les différentes strates du Web selon Aleph Networks et la manière dont ils appliquent leur technologie brevetée GrayMatter® à l’environnement du Dark Web. Ensuite, nous présenterons leur nouveau produit Aleph Search Clear, la raison de cette entrée sur le marché du Web ouvert, et enfin les usages auxquels répond ce nouvel outil et les problématiques qu’il peut résoudre.

Le Deep et Dark Web, de véritables objets de fantasme

Le Dark Web et le Deep Web sont des espaces très instables qui tendent à ajouter ou retirer fréquemment des sites. Ils suscitent bon nombre de rumeurs et il est par conséquent important de démystifier les différents volets qui composent le Web.


Voir aussi :

ORCID et les autres outils d’identification des auteurs de publications scientifiques

Plateformes de veille : qu’ont-elles à offrir aux PME et TPE ?


 Clear Web

Le « Clear Web », est le terme récupéré par Aleph Networks afin de marketer son nouveau produit. Il se place en tant que synonyme du « Clear Net », un terme technique issu du champ lexical de la cybersécurité, programmation et hacking que l’on retrouve dans la littérature académique dès 2015. Il désigne tout ce qui n’est pas issu du Dark Web.

Source : https://en.wikipedia.org/wiki/Clearnet_(networking).

Ce Clear Net s’apparente à ce que la communauté des professionnels de l’information désigne par Web ouvert ou encore le Web de surface, le web auquel on accède via les navigateurs de recherche classiques à l’instar de Google, Bing etc. Ce Web est l’espace sur-représenté dans nos usages pour la veille. Aleph Networks estime qu’il se situerait entre - uniquement - 2 et 20 % du Web (Source : Aleph Networks), représenté par la fameuse illustration de l’iceberg, remise ici au gout du jour par Aleph (voir Figure 1).

Figure 1 : Représentation des différentes strates du web - Crédits : Aleph Networks

Deep Web

Le Deep Web est la partie non référencée par les moteurs de recherche généralistes mais qui demeure accessible via n’importe quel navigateur. Si l’on reprend l’estimation fournie par Aleph, cet espace pourrait aller jusqu’à 90 % du web, il regroupe des sites qui nécessitent une authentification ou dont le contenu n’est accessible que par des recherches dans leur moteur interne, ou encore des forums… et par porosité englobe le Dark Web.

Dark Web

Le Dark Web ou Dark Net, est une partie du Deep Web que l’on ne peut pas atteindre avec des navigateurs classiques. On citera les réseaux les plus connus du Dark Web : Tor (.onion), I2P et FreeNet. Cette partie invisible comptabiliserait près de 350 000 sites dont en moyenne 30 000 sont dit « actifs » selon Aleph, qui estime la durée moyenne d’un site caché à 6 mois ; avec la possibilité qu’un site fermé puisse être réouvert plusieurs mois plus tard. Mais, à ce jour il est impossible de répertorier de façon fiable l’ensemble des sites présents sur le Dark Web.

C’est d’ailleurs l’une des missions que s’est fixée Tor, l’un de ces réseaux, avec différents projets comme celui de Ahmia.fi. Ahmia est un site accessible sur le Clear Net qui permet de rechercher des liens en .oignon sur le réseau Tor. Il s’agit de l’un des meilleurs outils de recherche sur le Dark Web actuellement disponibles, qui fournit rapidement des liens vers des adresses en .oignon contenant les mots-clés recherchés.

L’intérêt du Dark Web est lié à la protection de l’identité numérique et des données de navigation. Le profil, l’identifiant, la localisation, l’adresse IP sont en effet « anonymisés » permettant ainsi à l’internaute une liberté de navigation sans que son activité ou ses centres d’intérêt ne soient traqués par un tiers. Pourtant, on ne peut pas dire qu’il bénéficie d’une anonymisation totale car il est toujours possible de tracer un utilisateur mais la démarche requiert beaucoup plus de temps et de ressources.

Tout le fonctionnement d’anonymisation du Dark Web repose en réalité sur ce que l’on appelle des "chaînes de nœuds". Ces chaînes permettent de brouiller le cheminement de la requête d’un internaute. Ainsi, grâce à cette structure randomisée et ce principe de rebond de serveur en serveur - de nœuds en nœuds - l’identification de l’émetteur originaire de la requête est amplement plus difficile à tracer.

En termes de contenus et de navigation sur le Dark Net, l’internaute pourra accéder à la fois à des sites cachés mais aussi aux sites appartenant au Web de surface que nous connaissons grâce à ce que l’on appelle des nœuds de sorties, dernier maillon de la chaîne.

Au préalable, il faudra encore que l’utilisateur sache comment s’affranchir du traçage de son fournisseur d’accès internet - avec une solution VPN par exemple - et également comment interroger les moteurs de recherche sur le Dark Web.

Certes, cet environnement concentre les activités illégales et sulfureuses que l’on se représente à juste titre, mais il se révèle aussi comme une solution pour certaines personnes. Il s’agit d’une véritable issue à des problématiques endémiques liées à la liberté d’expression dans certains pays. Par exemple, un utilisateur du Dark Web en Chine sera en mesure d’accéder à Facebook. C’est aussi un espace qui soutient en partie le travail d’investigation de journalistes qui, grâce à cet environnement confidentiel, peuvent récupérer des leaks (fuites de données ou d’informations) ou témoignages de lanceurs d’alerte.

La technologie au cœur du positionnement initial d’Aleph sur le Dark Web

Le but

Aleph s’est fait une expertise du Dark Web et par vases communicants du Deep Web, ces espaces mouvants qui voient constamment de nouveaux sites émerger pour aussitôt disparaître.

Il s’ancre dans cet écosystème instable en détectant les activités et notamment la fuite de données. Son moteur de recherche alimenté par GrayMatter®, la technologie de captation de données permet grâce à une simple requête booléenne et de multiples filtres de recherche de détecter les leaks sur le Dark et Deep Web.

Aleph propose en fait un service de recherche et de crawling et met à disposition les données contextuelles de l’information. En aucun cas il n’interface ses clients directement sur le Dark Web, il propose une photographie de ce qu’il se passe sans possibilité de navigation libre ni de téléchargement des documents. Aussi Aleph sécurise l’ensemble des activités grâce aux conditions d’utilisation et au traçage des comptes utilisateurs.

Comment ça marche ?

L’outil propose des combinaisons de filtres pour déterminer le type de document (textuel, PDF, l’état du site web : actif ou non) ou encore, la nature de la donnée recherchée (numéro de carte bleue, adresses mail, adresse IP, bitcoins) et de croiser ces critères avec le nom de l’entreprise qui suspecte une fuite.

Ensuite, autre facette notable de l’outil, cette requête est restituée avec plusieurs possibilités d’affichage : par liste de résultats, par liste de noms de domaine, sous forme de page d’accueil plus facilement mémorisable ou représentation graphique figée mettant en exergue les noms de domaines en relation les uns avec les autres.

La technologie GrayMatter® repose sur la gestion de masses de données. Elle englobe quatre grandes actions :

  1. La collecte : récupérer et mettre à jour des informations provenant de sources privées internes et publiques externes.
  2. L’indexation : catégoriser et consolider ses données en les croisant pour en extraire de l’information à forte valeur ajouté.
  3. L’analyse : identifier les relations, clusters d’influence, réseaux sociaux (données publiques); détecter les traces numériques d’une personne, d’une marque, d’un produit ou toute autre activité (document, transaction, adresses IP…).
  4. La visualisation : structurer et cartographier des données en très grands volumes quasiment en temps réel pour faire émerger des informations non visibles initialement (par exemple les liens entre des entités).

Aleph fait irruption sur le Clear Web avec Aleph Search Clear

Depuis 2020, Aleph s’ouvre au web ouvert afin de proposer un nouvel outil Aleph Search Clear destiné à l’intelligence économique, pour ceux qui ont pour objectif de parfaire et maîtriser leur environnement concurrentiel.

Ce nouvel outil vise à apporter du sens dans l’environnement concurrentiel d’une entreprise en misant par­ticulièrement sur ses fonctionnalités de visualisation sous forme de graphiques.

Dans un contexte de veille et d’intelligence économique, Aleph Search Clear permet la construction et l’enrichissement de sourcing et la découverte de nouvelles sociétés gravitant autour d’une entité. Il devient ainsi possible de décrypter son propre écosystème et surtout celui dans lequel évoluent ses concurrents.

Comment ça marche ?

En indiquant un nom de domaine dans la barre de recherche de l’outil, Aleph Search Clear fera apparaître les noms de domaines entrants et sortants sous la forme d’un graphe. Libre à l’utilisateur de personnaliser cette cartographie et de taguer les acteurs, écarter les noms peu signifiants, pour extraire ce qui compte pour le client. Aleph souhaite proposer la construction de sa propre « infosphère » grâce à des données maîtrisées et de confiance dont la validation et la catégorisation est soutenue par une IA itérative. Elle apprendra pas à pas des habitudes de tagging de l’utilisateur avant de faire des suggestions par elle-même.

L’outil, raisonnant autour de nom de domaine Web et non autour de mots clés, vise à rapporter des données factuelles en laissant le soin de l’interprétation et la qualification des liens entrants et sortants à l’utilisateur. C’est à lui de tirer du sens depuis la représentation graphique.

Notre avis

Bien que l’on ne distingue pas encore les contours définitifs de l’outil encore en phase d’early testing, il faut noter que ce nouvel entrant issu du Dark Web tente de pénétrer le marché des outils de veille classique du Clear Web. Ce mouvement stratégique se justifie de façon très simple selon Aleph : il souhaite proposer un outil à la fois puissant et simple d’utilisation qui répond efficacement à diverses problématiques. Le constat est que les plateformes actuelles et outils de veille, somme toute performants, sont très complexes avec des temps considérables de prise en main et de paramétrage. L’utilisateur s’y perd.

Avec cet outil, Aleph s’adresse ainsi au plus grand nombre : des profils divers ne requérant pas de compétences techniques particulières, ayant des problématiques variées relatives à l’intelligence économique, la veille concurrentielle et la Due Diligence. En complément du bagage technologique, la société explique son choix de laisser la place à l’intelligence humaine pour créer une véritable synergie entre « l’humain et la machine ». L’idée est de revenir véritablement au niveau des usagers et en faveur d’une prise en main opérationnelle et efficace.

Figure 2 : Interface d’Aleph Search Clear - représentation graphique des domaines tagués - Crédits : Aleph Networks

Pionnier de la cybersécurité en France, la genèse du projet d’Aleph commence en 2010.

Les trois fondateurs Nicolas Hernandez, Antoine Bonamour et Céline Haeri, soutenus par 13 investisseurs, développent une technologie de collecte d’information appelée GrayMatter®. Cette technologie était initialement destinée au secteur des Ressources Humaines avec l’idée de collecter massivement des données publiques et permettre à des recruteurs d’acquérir notamment des corpus de CV. Mais elle a dû être repositionnée face à la levée de boucliers de la part d’acteurs déjà présents sur ce sujet.

Ainsi, les fondateurs décideront finalement de mettre à profit leur solution pour aborder les problématiques de cybersécurité et feront du Dark Web un terrain opportun pour agir.

L’activité d’Aleph Networks débutera ainsi en 2012 grâce à cette solution informatique qui sera brevetée en 2013 et s’adressera dans un premier temps exclusivement aux services d’Etats et à quelques entreprises privées comme des cabinets de cybersécurité et d’intelligence économique soigneusement qualifiés en respect de la charte éthique imposée par Aleph.