当你的网页浏览记录被证明可用于识别身份

作者: Hugo、林檎

来源: 数据实战派

发布日期: 2020-09-13

Mozilla的研究人员在USENIX会议上发表的研究显示,99%的Firefox用户的浏览历史记录具有独特性,能够被用来识别个体。这项研究揭示了网页浏览历史记录作为个人数据的重要性,以及互联网机构如何利用这些数据追踪用户行为。随着数据隐私法规的发展,如GDPR和《个人信息保护法》,网页浏览历史被明确划为个人信息,对个人隐私保护提出了新的挑战。

通常,网页浏览器会记录用户访问过的网站列表,即网页浏览历史记录,这对很多人来说也是特别熟悉的日常之一。但是,如果网页浏览历史记录可以用来识别每个个体呢?我们下面要介绍的研究,恐怕会让你对这件习以为常的事情有新的认识。

就在本月举行的USENIX会议上,Mozilla的研究人员发现了其中的异样:他们对5.2万名(事先同意)的Firefox用户在两周内的浏览历史数据集进行了分析,结果显示,48,919份浏览资料具有可区分性,即99%的浏览历史是独一无二的。超过八成用户可通过数据实战派利用真实数据,提升分析能力,共建有趣的大数据社区。浏览历史被识别身份。而且,只需要考虑50个最常用网站就足矣。

如此看来,尽管人类还没有成为cyborg,但你的网页浏览记录,正在从“数字脚印”变成“互联网指纹”。

Mozilla此项研究名为"Replication: Why We Still Can't Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories[1]",其实是对2012年一项研究的进一步拓展。此次论文。

图片出处:usenix.org在2012年的研究中,研究者首先建立了一个测试网站,并使用CSS代码从6000个域名列表中识别出参与者访问过的网站。当时的研究结果显示,基于这6000个域名,参与的受试者,97%都形成了非常具有独特性的浏览历史,仅此数据就可以用来追踪确认这些参与者。

而Mozilla这一次研究所采用的数据则更精确,因为它收集了5.2万名参与者的全部浏览记录,数据包括对66万个独特域名的3500万次网站访问,也是该领域规模最大的一次研究。参与者首先和Mozilla团队分享他们的浏览历史,然后,Mozilla团队开始试验他们是否能从大量数据中重新识别出这些用户。令人惊讶的是,99%的浏览记录被发现具有独特性,能与用户“对号入座”。

有趣的是,2012年和2020年的两次研究,还证明了时代在不断“进步”:八年前,对于用户访问量最大的前50个网站,识别用户的准确率为38%,对于500个网站的数据集,准确率为70%;今天,以50个网站为基础的重新识别准确率为50%,以150个网站为基础的重新识别准确率为90%。

图片出处:usenix.org事实上,网页浏览历史的敏感性不难理解,因为用户偏好通常是固定的,一段时间的浏览习惯也会比较稳定,网页历史记录往往不会随着时间的推移而发生重大变化,而且某种程度上,它们能传达用户的丰富信息,甚至能捕捉用户的心理或用作人口统计数据。由于网页历史记录的独特性和稳定性,在某些方面,它们确实类似于生物识别数据。

Mozilla团队表示,"通过网页和第三方可见的浏览历史记录重新识别用户是充分可行的,而浏览历史汇总对个人隐私的潜在威胁也得到了证明”。更坏的消息是,团队观察到,众多互联网机构正无孔不入地收集这类信息,从而利用浏览记录建立用户档案或者作为标记符,在整个互联网上追踪用户及用户行为。

研究团队发现Alphabet、FaceBook理论上有着最高的访问记录识别率,图片出处:usenix.org而且和2012年相比,现在用户的访问历史记录规模又更大了,在过去十年中,网站运营商和广告商可获得的网页浏览历史数据的数量明显增加了,几乎所有网络都会记录用户的访问历史,例如搜索引擎、社交媒体、视频网站等网络平台等,几乎都能够看到自己的浏览历史,平台则会收集、利用这些数据,以提高自身服务,并进行更精准的广告投放。

像谷歌、Facebook这样的流量帝国,处理这些信息的次数和程度肯定会更多。隐私研究人员、2012年论文作者之一的Lukasz Olejnik一语道破之:这项最新研究的发现能带来更深远的影响,因为它证实了网络浏览历史所具有的可被用于牟利的属性。如果根据这些信息有可能从许多人中识别出特定的用户,这些信息也就具有了个人数据的属性。

目前,全球最权威的数据隐私法规之一《通用数据保护条例》(General Data Protection Regulation,GDPR),给出了判断某数据信息是否属于个人数据的技术标准:(26)经过假名化(pseudonymisation)处理的个人数据(如果结合其他数据)仍然有合理的识别到具体自然人的可能性,属于GDPR定义的个人数据。

而已经匿名化(anonymous)的数据将无法识别数据主体,因此不属于GDPR定义的个人数据。需要注意,假名化处理是GDPR推荐企业采用的个人数据保护方式之一,但经过假名化处理的个人数据仍然属于GDPR管辖的范畴。简而言之,当该数据能识别出个人时,这类数据将自动受该法规(GDPR)管辖。

而在我国,与个人数据隐私保护最直接相关的法律——《个人信息保护法》——尚未正式出台,但2019年10月发布的专家意见稿中,也已将“网络浏览历史”划入个人信息范围。围绕这个话题,2020年国内也有一起非常典型的案例:爱奇艺的超前点播多重收费机制被其用户吴先生起诉,在败诉之后,又被指侵犯隐私,因为爱奇艺在案件庭审中提交了原告用户吴先生的观影记录,目前,对该案件的的审理还在进行中。

无论最终结果如何,互联网平台的权限边界都应该退一退了。

论文原文[1]Replication: Why We Still Can't Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories:https://www.usenix.org/system/files/soups2020-bird.pdf点击阅读原文阅读原文,查看更多精彩!

喜欢本篇内容,请分享、点赞、在看阅读原文

UUID: 364f5453-0904-48e2-8e67-db59cc5b5f4c

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2020年-下/2020-09-13_当你的网页浏览记录被证明可用于识别身份…….txt

是否为广告: 否

处理费用: 0.0050 元