La huella digital en el navegador es la recopilación sistemática de información desde un dispositivo remoto con el objetivo de identificar y rastrear de forma única a su usuario. La motivación principal detrás de esta técnica es la monetización de los datos de los usuarios, a menudo para campañas publicitarias personalizadas y perfiles de usuarios.
A diferencia de los métodos tradicionales de rastreo como las cookies, la huella dactilar funciona de forma silenciosa y puede ser mucho más persistente. En la literatura técnica se ha descrito como un "monstruo sin cookies" porque no requiere almacenar archivos en el dispositivo del usuario y es completamente transparente para el usuario.
| Características | de Cookies Fingerprinting del navegador | |
|---|---|---|
| Almacenamiento | Almacena pequeños archivos en el ordenador del usuario. | No se almacenan archivos en el ordenador del usuario ("sin cookies"). |
| Visibilidad y control del usuario | El usuario puede ver, bloquear o eliminar a través de la configuración del navegador. | Funciona de forma transparente. El usuario no tiene forma directa de saber que está ocurriendo o de prevenirlo. |
| Persistencia | Puede ser eliminado por el usuario. | Muy persistente. Incluso puede usarse para restaurar cookies que un usuario ha eliminado, volviendo a vincular su identidad. |
Ahora que entendemos qué es el fingerprinting de navegador y por qué es más persistente que las cookies, exploremos las técnicas específicas utilizadas para crear estos identificadores digitales únicos.
La singularidad de una huella dactilar proviene de combinar muchas piezas diferentes de información, algunas de las cuales son características simples del navegador, mientras que otras son muy avanzadas y sofisticadas.
Estas son características básicas que se pueden recopilar a través de un navegador para empezar a crear un perfil. Cada dato de información, combinado con otros, ayuda a acotar la identidad de un dispositivo.
Estos métodos aprovechan tecnologías web modernas para extraer detalles sutiles pero altamente identificativos de un dispositivo.
Esta técnica utiliza el elemento HTML5 Canvas para dibujar una imagen o texto oculto. Como cada dispositivo lo renderiza de forma ligeramente diferente debido a las variaciones en la tarjeta gráfica, los controladores y el sistema operativo, los datos de imagen resultantes pueden convertirse en un hash (una cadena única de caracteres) que sirve como un identificador potente.
Una variación del fingerprinting Canvas, este método genera imágenes de la misma cadena de texto varias veces, cada una con una fuente diferente de una lista predefinida. Las sutiles diferencias de renderizado entre las diversas fuentes permiten extraer métricas de las imágenes generadas, creando un identificador único para el navegador.
Esta técnica utiliza la API WebRTC (una tecnología para la comunicación en tiempo real) para descubrir la verdadera dirección IP local de un dispositivo, incluso si está detrás de un router de traducción de direcciones de red (NAT). Combinar esta IP local con la dirección IP pública crea un factor de identificación muy estable y consistente.
Este método utiliza la API AudioContext para procesar una señal de audio estándar generada por ordenador (como una onda sinusoidal). No escucha el micrófono del dispositivo. La señal de audio procesada final presenta sutiles variaciones debido a la pila única de hardware y software del dispositivo. Esta salida se hashea para crear un identificador único.
| Técnica | : Cómo funciona (simplificado) | Por qué es eficaz para la identificación |
|---|---|---|
| Lienzo | Dibuja una imagen oculta y analiza las sutiles diferencias de renderizado entre dispositivos. | Las variaciones en el hardware gráfico, controladores y fuentes hacen que la imagen final sea única para cada dispositivo. |
| Pila de lienzo | Renderiza el mismo texto con muchas fuentes diferentes para medir inconsistencias en el renderizado. | La combinación específica de fuentes instaladas y su renderizado crea un perfil muy único. |
| WebRTC | Utiliza una API de comunicación para revelar la dirección IP local del dispositivo. | Combinar las direcciones IP locales y públicas puede identificar de forma única un dispositivo en una red. |
| AudioContext | Procesa una señal de audio estándar para detectar diferencias en la pila de audio de un dispositivo. | El hardware y software de procesamiento de audio en cada dispositivo produce una salida ligeramente diferente. |
Aunque cada una de estas técnicas reúne una pieza del rompecabezas, el verdadero poder de la huella dactilar proviene de combinarlas; La siguiente sección explica cómo podemos medir científicamente ese poder de identificación.
La forma científica de medir el nivel de identificación única proporcionado por una pieza de información se llama Entropía de la Información, que se mide en "bits". Mayor entropía significa más singularidad.
Una analogía sencilla es un dado de seis caras. Un solo tirado tiene seis posibles resultados, proporcionando aproximadamente 2,58 bits de información. Si un evento solo tuviera dos resultados (como un lanzamiento de moneda), solo proporcionaría 1 bit de información. Cuantos más resultados posibles, mayor es la entropía y más "información" proporciona un resultado.
Cuando un sitio web recopila una característica del navegador, reduce la incertidumbre (entropía) sobre quién eres. Se estima que se necesitan aproximadamente 33 bits de entropía para identificar de forma única a una sola persona de la población global de 7.500 millones.
El proyecto de investigación Panopticlick ofrece un claro ejemplo de cómo diferentes atributos del navegador contribuyen con información identificativa.
Ejemplo: Fragmentos de información identificativa
Bits| característicos del navegador | de importancia identificativa | para la identificación |
|---|---|---|
| Detalles del plugin del navegador | 9,14 bits | Un valor mayor hace que esta característica sea más rara y contribuya más a hacerte único. |
| Agente de usuario | 7,68 bits | Esta combinación de navegador y sistema operativo es bastante poco común, lo que añade un poder de identificación significativo. |
| Hash de la huella digital del lienzo | 6,62 bits | La forma en que tu dispositivo renderiza los gráficos es un indicador fuerte. |
| Fuentes del sistema | 6,5 bits | La lista específica de fuentes en tu máquina es muy distintiva. |
| Huso horario | 2,7 bits | Aunque no es único por sí solo, ayuda a reducir significativamente las posibilidades. |
En la prueba Panopticlick, la combinación de estos y otros valores resultó en un total de al menos 20,37 bits de información identificativa, haciendo que el navegador fuera único entre más de 1.357.000 otros testados. Un proyecto similar, AmIUnique.org, también demuestra esto mostrando a los usuarios cómo se compara su huella digital de navegador con una gran base de datos de otras, encontrándola a menudo única.
Entendiendo que la toma de huellas dactilares es una ciencia medible para reducir el anonimato, ahora podemos evaluar estrategias para protegernos contra ella.
El principio de defensa más importante para los usuarios es sencillo: cuanto más cerca esté un dispositivo de una configuración general o predeterminada, más difícil es identificarlo de forma única.
Muchas herramientas comunes de privacidad no son efectivas contra la identificación digital avanzada.
Un estudio que analizó la eficiencia de diferentes medidas de mitigación encontró un claro ganador.
Otras medidas potencialmente efectivas, aunque a veces poco prácticas, incluyen:
Con estas estrategias defensivas en mente, resumamos los puntos más críticos de estas notas.