L’empreinte digitale par navigateur est la collecte systématique d’informations provenant d’un appareil distant dans le but d’identifier et de suivre de manière unique son utilisateur. La motivation principale derrière cette technique est la monétisation des données utilisateurs, souvent pour des campagnes publicitaires personnalisées et le profilage utilisateur.
Contrairement aux méthodes de suivi traditionnelles comme les cookies, l’empreinte digitale fonctionne silencieusement et peut être beaucoup plus persistante. Il a été décrit dans la littérature technique comme un « monstre sans cookies » car il ne nécessite pas de stocker de fichiers sur l’appareil de l’utilisateur et est totalement transparent pour celui-ci.
| Empreintes digitales du navigateur | de cookies | en fonctionnalités |
|---|---|---|
| Stockage | Stocke de petits fichiers sur l’ordinateur de l’utilisateur. | Aucun fichier n’est stocké sur l’ordinateur de l’utilisateur (« sans cookie »). |
| Visibilité et contrôle de l’utilisateur | Peut être consulté, bloqué ou supprimé par l’utilisateur via les paramètres du navigateur. | Fonctionne de manière transparente. L’utilisateur n’a aucun moyen direct de savoir que cela se produit ou de l’empêcher. |
| Persévérance | Peut être supprimé par l’utilisateur. | Très persistant. Il peut même être utilisé pour restaurer des cookies qu’un utilisateur a supprimés, en reliant ainsi son identité. |
Maintenant que nous comprenons ce qu’est l’empreinte digitale dans les navigateurs et pourquoi elle est plus persistante que les cookies, explorons les techniques spécifiques utilisées pour créer ces identifiants numériques uniques.
L’unicité d’une empreinte digitale vient de la combinaison de nombreuses informations différentes, dont certaines sont des caractéristiques simples du navigateur, tandis que d’autres sont très avancées et sophistiquées.
Ce sont des caractéristiques de base qui peuvent être collectées via un navigateur pour commencer à créer un profil. Chaque information, combinée à d’autres, aide à cibler l’identité d’un appareil.
Ces méthodes exploitent les technologies web modernes pour extraire des détails subtils mais très reconnaissants d’un appareil.
Cette technique utilise l’élément HTML5 Canvas pour dessiner une image ou un texte caché. Comme chaque périphérique l’affiche légèrement différemment en raison des variations de la carte graphique, des pilotes et du système d’exploitation, les données d’image résultantes peuvent être converties en un hachage (une chaîne unique de caractères) servant d’identifiant puissant.
Variante de l’empreinte digitale Canvas, cette méthode génère plusieurs fois des images de la même chaîne de texte, chacune avec une police différente issue d’une liste prédéfinie. Les différences subtiles de rendu selon les différentes polices permettent d’extraire des métriques à partir des images générées, créant ainsi un identifiant unique pour le navigateur.
Cette technique utilise l’API WebRTC (une technologie de communication en temps réel) pour découvrir la véritable adresse IP locale d’un appareil, même si elle se trouve derrière un routeur de traduction d’adresses réseau (NAT). La combinaison de cette IP locale avec l’adresse IP publique crée un facteur d’identification très stable et cohérent.
Cette méthode utilise l’API AudioContext pour traiter un signal audio standard généré par ordinateur (comme une onde sinusoïdale). Il n’écoute pas le microphone de l’appareil. Le signal audio final traité présente des variations subtiles en raison de la pile matérielle et logicielle unique de l’appareil. Cette sortie est ensuite hachée pour créer un identifiant unique.
| Technique | : Fonctionnement (simplifié) | Pourquoi c’est efficace pour l’identification |
|---|---|---|
| Toile | Dessine une image cachée et analyse les différences subtiles de rendu entre les appareils. | Les variations de matériel graphique, de pilotes et de polices rendent l’image finale unique à un appareil. |
| Police en toile | Affiche le même texte avec de nombreuses polices différentes pour mesurer les incohérences de rendu. | La combinaison spécifique des polices installées et de leur rendu crée un profil très unique. |
| WebRTC | Utilise une API de communication pour révéler l’adresse IP réseau locale de l’appareil. | La combinaison des adresses IP locales et publiques permet d’identifier de manière unique un appareil sur un réseau. |
| AudioContext | Traite un signal audio standard pour détecter les différences dans la pile audio d’un appareil. | Le matériel et le logiciel de traitement audio de chaque appareil produisent une sortie légèrement différente. |
Bien que chacune de ces techniques rassemble une pièce du puzzle, la véritable puissance de l’empreinte digitale réside dans leur combinaison ; La section suivante explique comment mesurer scientifiquement ce pouvoir d’identification.
La méthode scientifique pour mesurer le niveau d’identification unique fourni par une information s’appelle l’entropie de l’information, qui se mesure en « bits ». Une entropie plus élevée signifie plus d’unicité.
Une analogie simple est un dé à six faces. Un seul jet a six résultats possibles, fournissant environ 2,58 bits d’information. Si un événement n’avait que deux résultats (comme un lancer de pièce), il ne fournirait qu’un seul bit d’information. Plus il y a de résultats possibles, plus l’entropie est élevée et plus le résultat fournit d'« informations ».
Lorsqu’un site web collecte une caractéristique du navigateur, cela réduit l’incertitude (entropie) quant à qui vous êtes. On estime qu’environ 33 bits d’entropie sont nécessaires pour identifier de manière unique une seule personne parmi la population mondiale de 7,5 milliards.
Le projet de recherche Panopticlick offre un exemple clair de la manière dont différents attributs du navigateur contribuent à des informations identifiantes.
Exemple : Des informations d’identification
Caractéristiques| du navigateur | : signification de l’information | pour l’identification |
|---|---|---|
| Détails du plugin navigateur | 9,14 bits | Une valeur plus élevée signifie que cette caractéristique est plus rare et contribue davantage à vous rendre unique. |
| Agent utilisateur | 7,68 bits | Cette combinaison de navigateur et de système d’exploitation est assez rare, ce qui ajoute une puissance d’identification significative. |
| Hachage de l’empreinte digitale de la toile | 6,62 bits | La façon dont votre appareil affiche les graphismes est un facteur fort. |
| Polices système | 6,5 bits | La liste spécifique des polices sur votre machine est très distinctive. |
| Fuseau horaire | 2,7 bits | Bien que ce ne soit pas unique en soi, cela permet de réduire considérablement les possibilités. |
Dans le test Panopticlick, la combinaison de ces valeurs et d’autres a donné un total d’au moins 20,37 bits d’informations identifiantes, rendant le navigateur unique parmi plus de 1 357 000 autres testés. Un projet similaire, AmIUnique.org, démontre également cela en montrant aux utilisateurs comment leur empreinte digitale de navigateur se compare à une grande base de données d’autres, souvent en la trouvant unique.
Comprenant que l’empreinte digitale est une science mesurable pour réduire l’anonymat, nous pouvons désormais évaluer des stratégies pour nous en protéger.
Le principe de défense le plus important pour les utilisateurs est simple : plus un appareil est proche d’une configuration générale ou par défaut, plus il est difficile de l’identifier de manière unique.
De nombreux outils courants de confidentialité ne sont pas efficaces contre l’empreinte digitale avancée.
Une étude analysant l’efficacité des différentes mesures d’atténuation a trouvé un gagnant clair.
D’autres mesures potentiellement efficaces, bien que parfois peu pratiques, incluent :
Avec ces stratégies défensives en tête, résumons les points les plus cruciaux de ces notes.