Lấy dấu vân tay của trình duyệt là việc thu thập thông tin có hệ thống từ một thiết bị từ xa với mục đích xác định và theo dõi duy nhất người dùng của nó. Động lực chính đằng sau kỹ thuật này là kiếm tiền từ dữ liệu người dùng, thường là cho các chiến dịch quảng cáo được cá nhân hóa và lập hồ sơ người dùng.
Không giống như các phương pháp theo dõi truyền thống như cookie, dấu vân tay hoạt động âm thầm và có thể bền bỉ hơn nhiều. Nó đã được mô tả trong tài liệu kỹ thuật là một "con quái vật không có cookie" vì nó không yêu cầu lưu trữ bất kỳ tệp nào trên thiết bị của người dùng và hoàn toàn minh bạch đối với người dùng.
| Tính năng | Cookie | Lấy dấu vân tay trình duyệt |
|---|---|---|
| Lưu trữ | Lưu trữ các tệp nhỏ trên máy tính của người dùng. | Không có tệp nào được lưu trữ trên máy tính của người dùng ("không có cookie"). |
| Khả năng hiển thị và kiểm soát người dùng | Người dùng có thể xem, chặn hoặc xóa thông qua cài đặt trình duyệt. | Hoạt động minh bạch. Người dùng không có cách trực tiếp để biết nó đang xảy ra hoặc ngăn chặn nó. |
| Sự kiên trì | Người dùng có thể xóa. | Rất bền bỉ. Nó thậm chí có thể được sử dụng để khôi phục cookie mà người dùng đã xóa, liên kết lại danh tính của họ. |
Bây giờ chúng ta đã hiểu dấu vân tay trình duyệt là gì và tại sao nó bền bỉ hơn cookie, hãy khám phá các kỹ thuật cụ thể được sử dụng để tạo các mã định danh kỹ thuật số duy nhất này.
Tính độc đáo của dấu vân tay đến từ việc kết hợp nhiều thông tin khác nhau, một số là đặc điểm trình duyệt đơn giản, trong khi những thông tin khác rất tiên tiến và tinh vi.
Đây là những đặc điểm cơ bản có thể được thu thập thông qua trình duyệt để bắt đầu xây dựng hồ sơ. Mỗi phần thông tin, khi kết hợp với những thông tin khác, giúp thu hẹp danh tính của thiết bị.
Các phương pháp này khai thác các công nghệ web hiện đại để trích xuất các chi tiết tinh tế nhưng có tính nhận dạng cao từ thiết bị.
Kỹ thuật này sử dụng phần tử HTML5 Canvas để vẽ hình ảnh hoặc văn bản ẩn. Bởi vì mỗi thiết bị hiển thị nó hơi khác nhau do các biến thể trong card đồ họa, trình điều khiển và hệ điều hành, dữ liệu hình ảnh thu được có thể được chuyển đổi thành một hàm băm (một chuỗi ký tự duy nhất) đóng vai trò như một mã định danh mạnh mẽ.
Một biến thể của dấu vân tay Canvas, phương pháp này tạo hình ảnh của cùng một chuỗi văn bản nhiều lần, mỗi lần có một phông chữ khác nhau từ danh sách được xác định trước. Sự khác biệt về kết xuất tinh tế giữa nhiều loại phông chữ cho phép trích xuất các chỉ số từ hình ảnh được tạo, tạo ra một mã định danh duy nhất cho trình duyệt.
Kỹ thuật này sử dụng API WebRTC (một công nghệ giao tiếp thời gian thực) để khám phá địa chỉ IP cục bộ thực sự của thiết bị, ngay cả khi nó nằm sau bộ định tuyến Dịch địa chỉ mạng (NAT). Kết hợp IP cục bộ này với địa chỉ IP công cộng tạo ra một yếu tố nhận dạng rất ổn định và nhất quán.
Phương thức này sử dụng API AudioContext để xử lý tín hiệu âm thanh tiêu chuẩn do máy tính tạo ra (như sóng hình sin). Nó không nghe micrô của thiết bị. Tín hiệu âm thanh được xử lý cuối cùng có các biến thể tinh tế do ngăn xếp phần cứng và phần mềm độc đáo của thiết bị. Đầu ra này sau đó được băm để tạo mã định danh duy nhất.
| Kỹ thuật | Cách thức hoạt động (Đơn giản hóa) | Tại sao nó lại hiệu quả để nhận dạng |
|---|---|---|
| Vải bạt | Vẽ một hình ảnh ẩn và phân tích sự khác biệt hiển thị tinh tế giữa các thiết bị. | Các biến thể về phần cứng đồ họa, trình điều khiển và phông chữ làm cho hình ảnh cuối cùng trở nên độc đáo cho một thiết bị. |
| Phông chữ Canvas | Hiển thị cùng một văn bản với nhiều phông chữ khác nhau để đo lường sự không nhất quán của kết xuất. | Sự kết hợp cụ thể của các phông chữ đã cài đặt và kết xuất của chúng tạo ra một cấu hình rất độc đáo. |
| WebRTC | Sử dụng API giao tiếp để tiết lộ địa chỉ IP mạng cục bộ của thiết bị. | Kết hợp địa chỉ IP cục bộ và địa chỉ IP công cộng có thể xác định duy nhất một thiết bị trên mạng. |
| Ngữ cảnh âm thanh | Xử lý tín hiệu âm thanh tiêu chuẩn để phát hiện sự khác biệt trong ngăn xếp âm thanh của thiết bị. | Phần cứng và phần mềm xử lý âm thanh trên mỗi thiết bị tạo ra đầu ra hơi khác nhau. |
Trong khi mỗi kỹ thuật này thu thập một mảnh ghép, sức mạnh thực sự của dấu vân tay đến từ việc kết hợp chúng; Phần tiếp theo giải thích cách chúng ta có thể đo lường một cách khoa học sức mạnh nhận dạng đó.
Cách khoa học để đo mức độ nhận dạng duy nhất được cung cấp bởi một phần thông tin được gọi là Entropy thông tin, được đo bằng "bit". Entropy cao hơn có nghĩa là độc đáo hơn.
Một phép so sánh đơn giản là một con xúc xắc sáu mặt. Một cuộn duy nhất có sáu kết quả có thể xảy ra, cung cấp khoảng 2,58 bit thông tin. Nếu một sự kiện chỉ có hai kết quả (như tung đồng xu), nó sẽ chỉ cung cấp 1 bit thông tin. Kết quả càng có thể xảy ra, entropy càng cao và kết quả cung cấp càng nhiều "thông tin".
Khi một trang web thu thập một đặc điểm của trình duyệt, nó làm giảm sự không chắc chắn (entropy) về bạn là ai. Người ta ước tính rằng khoảng 33 bit entropy là cần thiết để xác định duy nhất một người trong dân số toàn cầu 7,5 tỷ người.
Dự án nghiên cứu Panopticlick cung cấp một ví dụ rõ ràng về cách các thuộc tính trình duyệt khác nhau đóng góp các bit thông tin nhận dạng.
Ví dụ: Bit thông tin nhận dạng
Đặc Các quan| điểm của trình duyệt | bit nhận dạng thông tin | trọng đối với nhận dạng |
|---|---|---|
| Chi tiết plugin trình duyệt | 9,14 bit | Giá trị cao hơn có nghĩa là đặc điểm này hiếm hơn và góp phần nhiều hơn vào việc làm cho bạn trở nên độc đáo. |
| Tác nhân người dùng | 7,68 bit | Sự kết hợp giữa trình duyệt và hệ điều hành này khá hiếm gặp, bổ sung sức mạnh nhận dạng đáng kể. |
| Hàm băm của dấu vân tay canvas | 6,62 bit | Cách thiết bị của bạn hiển thị đồ họa là một mã định danh mạnh mẽ. |
| Phông chữ hệ thống | 6.5 bit | Danh sách cụ thể các phông chữ trên máy của bạn rất khác biệt. |
| Múi giờ | 2.7 bit | Mặc dù bản thân nó không phải là duy nhất, nhưng nó giúp thu hẹp đáng kể các khả năng. |
Trong thử nghiệm Panopticlick, sự kết hợp của các giá trị này và các giá trị khác dẫn đến tổng cộng ít nhất 20,37 bit thông tin nhận dạng, làm cho trình duyệt trở nên độc đáo trong số hơn 1.357.000 giá trị khác được thử nghiệm. Một dự án tương tự, AmIUnique.org, cũng chứng minh điều này bằng cách cho người dùng thấy dấu vân tay trình duyệt của họ so với cơ sở dữ liệu lớn của những người khác, thường thấy nó là duy nhất.
Hiểu rằng lấy dấu vân tay là một khoa học có thể đo lường được để giảm ẩn danh, giờ đây chúng ta có thể đánh giá các chiến lược để bảo vệ chống lại nó.
Nguyên tắc bảo vệ quan trọng nhất đối với người dùng rất đơn giản: Thiết bị càng gần với cấu hình chung hoặc cấu hình mặc định, thì càng khó xác định duy nhất.
Nhiều công cụ bảo mật phổ biến không hiệu quả chống lại dấu vân tay nâng cao.
Một nghiên cứu phân tích hiệu quả của các biện pháp giảm thiểu khác nhau đã tìm thấy một người chiến thắng rõ ràng.
Các biện pháp có khả năng hiệu quả khác, mặc dù đôi khi không thực tế, bao gồm:
Với những chiến lược phòng thủ này, chúng ta hãy tóm tắt những điểm quan trọng nhất từ những ghi chú này.