Trong khi hầu hết người dùng internet đã quen thuộc với cookie, một phương pháp theo dõi bền bỉ và vô hình hơn nhiều đang hoạt động trên web. Kỹ thuật này, được gọi là lấy dấu vân tay của trình duyệt, có thể tạo một hồ sơ duy nhất của bạn mà không cần lưu trữ bất kỳ thứ gì trên máy tính của bạn, khiến bất kỳ cá nhân nào có ý thức về quyền riêng tư nào cũng cần hiểu.
Lấy dấu vân tay thiết bị, thường được gọi là lấy dấu vân tay của trình duyệt, là việc thu thập thông tin có hệ thống từ trình duyệt web và thiết bị. Mục tiêu là kết hợp các chi tiết này để tạo ra một mã định danh đủ duy nhất để chọn ra, theo dõi và xây dựng hồ sơ chi tiết của người dùng.
Kỹ thuật này được phát triển như một phương pháp theo dõi liên tục hơn, được thiết kế để vượt qua các biện pháp bảo mật do người dùng kiểm soát như xóa cookie. Không giống như cookie mà người dùng có thể tìm và xóa, dấu vân tay thường hoạt động minh bạch, không lưu trữ bất kỳ tệp nào trên thiết bị của người dùng.
Các kỹ thuật lấy dấu vân tay kỹ thuật số đã được mô tả trong các tài liệu chuyên ngành là "quái vật không có cookie" vì không cần thiết phải cài đặt bất kỳ loại cookie nào trên thiết bị để thu thập thông tin...
Những "dấu vân tay" này được xây dựng bằng cách kết hợp nhiều mẩu thông tin khác nhau, mà chúng ta sẽ khám phá tiếp theo.
Khái niệm cơ bản đằng sau dấu vân tay của trình duyệt là mặc dù bất kỳ thông tin nào về thiết bị của bạn có thể phổ biến, nhưng sự kết hợp của nhiều chi tiết như vậy có thể là duy nhất. Một trang web tập hợp một tập hợp các đặc điểm này, tạo ra một "dấu vân tay kỹ thuật số" cho trình duyệt của bạn một cách hiệu quả.
Dưới đây là một số đặc điểm phổ biến có thể được thu thập để tạo thành dấu vân tay cơ bản:
Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0).-120 số phút tính từ UTC).1920x1080x24).Mặc dù các điểm dữ liệu cơ bản này có thể tạo ra một mã định danh duy nhất đáng ngạc nhiên, nhưng trình theo dõi thường sử dụng các phương pháp phức tạp hơn để tăng độ chính xác.
Để tạo dấu vân tay mạnh mẽ và chính xác hơn, trình theo dõi sử dụng các kỹ thuật tiên tiến khai thác các tính năng của trình duyệt web hiện đại.
Kỹ thuật mạnh mẽ này sử dụng phần tử HTML5 Canvas , một tính năng được thiết kế để vẽ đồ họa và hoạt ảnh trên trang web. Trình theo dõi hướng dẫn trình duyệt vẽ một hình ảnh hoặc đoạn văn bản ẩn. Sự độc đáo đến từ thực tế là sự kết hợp khác nhau của phần cứng (như Bộ xử lý đồ họa hoặc GPU), phần mềm (trình điều khiển đồ họa) và hệ điều hành sẽ hiển thị hình ảnh này theo những cách khác nhau một cách tinh tế. Hình ảnh kết xuất cuối cùng được chuyển đổi thành chữ ký số duy nhất, được gọi là hàm băm, đóng vai trò như một mã định danh có độ ổn định cao.
Đây là một biến thể chuyên biệt của Canvas Fingerprinting. Thay vì vẽ một hình ảnh phức tạp duy nhất, nó hướng dẫn trình duyệt hiển thị cùng một chuỗi văn bản nhiều lần, mỗi lần sử dụng một phông chữ khác nhau từ danh sách phông chữ đã cài đặt của thiết bị. Bằng cách đo lường sự khác biệt tinh tế trong cách vẽ từng phông chữ (kích thước, khử răng cưa, v.v.), phương pháp này có thể tạo ra một mã định danh rất cụ thể cho bộ sưu tập phông chữ hệ thống duy nhất của người dùng.
WebRTC (Web Real-Time Communication) là một API cho phép giao tiếp thoại và video theo thời gian thực trực tiếp giữa các trình duyệt. Một tác dụng phụ của chức năng này là API WebRTC có thể được sử dụng để tiết lộ địa chỉ IP cục bộ của người dùng — địa chỉ mà thiết bị của họ sử dụng trên mạng riêng (như mạng Wi-Fi gia đình), thường bị ẩn. Bằng cách kết hợp IP cục bộ ẩn của người dùng với IP công cộng của họ, trình theo dõi có thể tạo ra một mã định danh rất nhất quán và hiệu quả, ngay cả khi IP công cộng thay đổi.
Kỹ thuật này sử dụng AudioContext API, một công cụ để xử lý tín hiệu âm thanh trong trình duyệt. Điều quan trọng cần lưu ý là phương pháp này không nghe micrô của người dùng. Thay vào đó, nó tạo ra một sóng âm thanh được tiêu chuẩn hóa, không nghe được (như sóng sin) và xử lý nó thông qua ngăn xếp âm thanh của trình duyệt. Tín hiệu kỹ thuật số thu được hơi khác nhau trên mỗi máy do các biến thể độc đáo trong trình điều khiển phần cứng và phần mềm của thiết bị. Một hàm băm của tín hiệu đã xử lý này sau đó được sử dụng làm mã định danh duy nhất.
Bây giờ chúng ta đã hiểu cách tạo dấu vân tay, chúng ta hãy xem tính độc đáo của chúng được đo lường một cách khoa học như thế nào.
Cách khoa học để đo lường tính duy nhất của dấu vân tay là thông qua Entropy thông tin. Nói một cách đơn giản, entropy là thước đo độ không chắc chắn, được tính bằng "bit". Một đặc điểm càng cung cấp nhiều "thông tin nhận dạng" thì nó càng hiếm và càng giúp xác định người dùng một cách duy nhất.
Ví dụ: biết rằng một người dùng châu Âu đang sử dụng Chrome (59% thị phần vào tháng 5 năm 2018) cung cấp rất ít thông tin nhận dạng (khoảng 1 bit). Tuy nhiên, biết họ đang sử dụng Internet Explorer (4% thị phần) cung cấp nhiều thông tin hơn (khoảng 4 bit) vì nó ít phổ biến hơn nhiều. Bằng cách kết hợp nhiều đặc điểm như vậy, tổng số bit entropy có thể nhanh chóng cộng lại để tạo ra một mã định danh duy nhất toàn cầu.
Bảng sau, dựa trên dữ liệu từ thử nghiệm Panopticlick, cho thấy các đặc điểm khác nhau của trình duyệt đóng góp lượng thông tin nhận dạng khác nhau như thế nào.
Ví dụ: Bit thông tin nhận dạng
Các bit| đặc trưng của trình duyệt | của thông tin nhận dạng |
|---|---|
| Hàm băm của dấu vân tay canvas | 6.62 |
| Kích thước màn hình và độ sâu màu | 2.45 |
| Chi tiết plugin trình duyệt | 9.14 |
| Múi giờ | 2.70 |
| Phông chữ hệ thống | 6.50 |
| Nền tảng | 3.17 |
| Tác nhân người dùng | 7.68 |
Phép đo tính độc đáo này không chỉ là lý thuyết; Nó có các ứng dụng và hậu quả đáng kể trong thế giới thực.
Trong một nghiên cứu năm 2018, Cơ quan Bảo vệ Dữ liệu Tây Ban Nha (AEPD) đã phân tích hơn 5.000 URL để hiểu mức độ phổ biến của các kỹ thuật này. Những phát hiện đã tiết lộ:
Nghiên cứu cũng xác nhận sự không hiệu quả của tín hiệu "Không theo dõi" (DNT), một cài đặt trình duyệt yêu cầu các trang web không theo dõi người dùng. Nghiên cứu cho thấy các trang web sử dụng dấu vân tay đã phớt lờ yêu cầu này. Trong trường hợp lấy dấu vân tay Canvas, 96,12% trang web tiếp tục biên dịch dấu vân tay ngay cả khi người dùng đã kích hoạt DNT một cách rõ ràng. Đáng báo động hơn, nghiên cứu phát hiện ra rằng bản thân tín hiệu DNT có thể được sử dụng như một điểm dữ liệu khác để làm cho dấu vân tay của người dùng trở nên độc đáo hơn, biến yêu cầu về quyền riêng tư thành một công cụ để nhận dạng.
Với một vấn đề phổ biến và dai dẳng như vậy, thật tự nhiên khi đặt câu hỏi có thể làm gì để bảo vệ quyền riêng tư của một người.
Nghiên cứu AEPD đã thử nghiệm các biện pháp giảm thiểu khác nhau để xem chúng có thể ngăn chặn dấu vân tay hiệu quả như thế nào. Kết quả cho thấy sự khác biệt rõ ràng giữa các tính năng bảo mật thụ động và các công cụ chặn chủ động.
| Phương pháp: | Cách thức hoạt động | : Hiệu quả (Dựa trên nghiên cứu AEPD) |
|---|---|---|
| Chế độ riêng tư / ẩn danh | Xóa lịch sử cục bộ, cookie và dữ liệu trang web sau khi phiên kết thúc. | Không hiệu quả. Nó không làm thay đổi các đặc tính cơ bản của thiết bị, vì vậy dấu vân tay vẫn giống hệt nhau. |
| VPN / Mạng ẩn danh | Ẩn địa chỉ IP công cộng của người dùng khỏi máy chủ đích. | Hiệu quả một phần. Mặc dù chúng ẩn một điểm dữ liệu chính (IP công cộng), nhưng chúng không lọc bộ sưu tập các đặc điểm khác của thiết bị. |
| Tùy chọn quyền riêng tư của trình duyệt (ví dụ: chặn cookie của bên thứ 3, bật DNT) | Sử dụng cài đặt trình duyệt tích hợp để hạn chế theo dõi. | Không phải là một sự giảm đáng kể. Nghiên cứu cho thấy các lựa chọn này có ít tác dụng, ngoại trừ việc giảm đáng kể các phát hiện WebRTC. |
| Tiện ích mở rộng trình duyệt (Trình chặn như uBlock Origin, Ghostery) | Chủ động xác định và chặn các tập lệnh và kết nối được biết là được sử dụng để theo dõi. | Hiệu quả nhất. Những công cụ này tạo ra "giảm đáng kể các phát hiện" trên các kỹ thuật lấy dấu vân tay. |
| Vô hiệu hóa Javascript | Ngăn các tập lệnh thu thập dữ liệu dấu vân tay chạy. | Hiệu quả, nhưng không thực tế. Phương pháp này phá vỡ chức năng của nhiều trang web hiện đại, khiến nó trở thành một giải pháp không thực tế đối với hầu hết người dùng. |
Những phát hiện này dẫn đến một số kết luận quan trọng cho bất kỳ ai quan tâm đến quyền riêng tư kỹ thuật số của họ.