当你的网页浏览记录被证明可用于识别身份

通常，网页浏览器会记录用户访问过的网站列表，即网页浏览历史记录，这对很多人来说也是特别熟悉的日常之一。但是，如果网页浏览历史记录可以用来识别每个个体呢？我们下面要介绍的研究，恐怕会让你对这件习以为常的事情有新的认识。

就在本月举行的USENIX会议上，Mozilla的研究人员发现了其中的异样：他们对5.2万名（事先同意）的Firefox用户在两周内的浏览历史数据集进行了分析，结果显示，48,919份浏览资料具有可区分性，即99%的浏览历史是独一无二的。超过八成用户可通过数据实战派利用真实数据，提升分析能力，共建有趣的大数据社区。浏览历史被识别身份。而且，只需要考虑50个最常用网站就足矣。

如此看来，尽管人类还没有成为cyborg，但你的网页浏览记录，正在从“数字脚印”变成“互联网指纹”。

Mozilla此项研究名为"Replication: Why We Still Can't Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories[1]"，其实是对2012年一项研究的进一步拓展。此次论文。

图片出处：usenix.org在2012年的研究中，研究者首先建立了一个测试网站，并使用CSS代码从6000个域名列表中识别出参与者访问过的网站。当时的研究结果显示，基于这6000个域名，参与的受试者，97%都形成了非常具有独特性的浏览历史，仅此数据就可以用来追踪确认这些参与者。

而Mozilla这一次研究所采用的数据则更精确，因为它收集了5.2万名参与者的全部浏览记录，数据包括对66万个独特域名的3500万次网站访问，也是该领域规模最大的一次研究。参与者首先和Mozilla团队分享他们的浏览历史，然后，Mozilla团队开始试验他们是否能从大量数据中重新识别出这些用户。令人惊讶的是，99%的浏览记录被发现具有独特性，能与用户“对号入座”。

有趣的是，2012年和2020年的两次研究，还证明了时代在不断“进步”：八年前，对于用户访问量最大的前50个网站，识别用户的准确率为38%，对于500个网站的数据集，准确率为70%；今天，以50个网站为基础的重新识别准确率为50%，以150个网站为基础的重新识别准确率为90%。

图片出处：usenix.org事实上，网页浏览历史的敏感性不难理解，因为用户偏好通常是固定的，一段时间的浏览习惯也会比较稳定，网页历史记录往往不会随着时间的推移而发生重大变化，而且某种程度上，它们能传达用户的丰富信息，甚至能捕捉用户的心理或用作人口统计数据。由于网页历史记录的独特性和稳定性，在某些方面，它们确实类似于生物识别数据。

Mozilla团队表示，"通过网页和第三方可见的浏览历史记录重新识别用户是充分可行的，而浏览历史汇总对个人隐私的潜在威胁也得到了证明”。更坏的消息是，团队观察到，众多互联网机构正无孔不入地收集这类信息，从而利用浏览记录建立用户档案或者作为标记符，在整个互联网上追踪用户及用户行为。

研究团队发现Alphabet、FaceBook理论上有着最高的访问记录识别率，图片出处：usenix.org而且和2012年相比，现在用户的访问历史记录规模又更大了，在过去十年中，网站运营商和广告商可获得的网页浏览历史数据的数量明显增加了，几乎所有网络都会记录用户的访问历史，例如搜索引擎、社交媒体、视频网站等网络平台等，几乎都能够看到自己的浏览历史，平台则会收集、利用这些数据，以提高自身服务，并进行更精准的广告投放。

像谷歌、Facebook这样的流量帝国，处理这些信息的次数和程度肯定会更多。隐私研究人员、2012年论文作者之一的Lukasz Olejnik一语道破之：这项最新研究的发现能带来更深远的影响，因为它证实了网络浏览历史所具有的可被用于牟利的属性。如果根据这些信息有可能从许多人中识别出特定的用户，这些信息也就具有了个人数据的属性。

目前，全球最权威的数据隐私法规之一《通用数据保护条例》(General Data Protection Regulation，GDPR），给出了判断某数据信息是否属于个人数据的技术标准：(26)经过假名化（pseudonymisation）处理的个人数据（如果结合其他数据）仍然有合理的识别到具体自然人的可能性，属于GDPR定义的个人数据。

而已经匿名化（anonymous）的数据将无法识别数据主体，因此不属于GDPR定义的个人数据。需要注意，假名化处理是GDPR推荐企业采用的个人数据保护方式之一，但经过假名化处理的个人数据仍然属于GDPR管辖的范畴。简而言之，当该数据能识别出个人时，这类数据将自动受该法规(GDPR)管辖。

而在我国，与个人数据隐私保护最直接相关的法律——《个人信息保护法》——尚未正式出台，但2019年10月发布的专家意见稿中，也已将“网络浏览历史”划入个人信息范围。围绕这个话题，2020年国内也有一起非常典型的案例：爱奇艺的超前点播多重收费机制被其用户吴先生起诉，在败诉之后，又被指侵犯隐私，因为爱奇艺在案件庭审中提交了原告用户吴先生的观影记录，目前，对该案件的的审理还在进行中。

无论最终结果如何，互联网平台的权限边界都应该退一退了。

论文原文[1]Replication: Why We Still Can't Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories：https://www.usenix.org/system/files/soups2020-bird.pdf点击阅读原文阅读原文，查看更多精彩！

喜欢本篇内容，请分享、点赞、在看阅读原文