随着欧盟通用数据保护条例(GDPR)违反行为的首批大额罚款的到来,以及英国政府即将审查GDPR指南,研究人员展示了如何使用机器学习将匿名数据集追溯到个人。研究人员表示,他们的论文今天发表在《自然通讯》上,证明了在使用数据(例如训练AI算法)的同时保护人们的隐私,需要的不仅仅是添加噪音、采样数据集和其他去标识化技术。
他们还发布了一个演示工具,让人们了解即使数据集是匿名的,并且只是其中的一小部分被共享,他们被追踪的可能性有多大。他们表示,这些发现应该成为政策制定者的警钟,提醒他们需要收紧什么是真正匿名数据的规则。企业和政府都经常收集和使用我们的个人数据。我们的数据及其使用方式受相关法律保护,如GDPR或美国的加州消费者隐私法(CCPA)。
数据被'采样'和匿名化,包括剥离数据中的识别特征,如姓名和电子邮件地址,以便理论上无法识别个人。在此过程之后,数据不再受数据保护法规的约束,因此可以自由使用和出售给广告公司和数据经纪人等第三方。新的研究表明,一旦购买,数据通常可以使用机器学习进行逆向工程,以重新识别个人,尽管采用了匿名化技术。这可能会暴露个人识别个人的敏感信息,并允许买家构建越来越全面的个人资料。
研究首次展示了这可以多么容易和准确地完成——即使是不完整的数据集。在研究中,99.98%的美国人通过使用仅15个特征(包括年龄、性别和婚姻状况)在任何可用的'匿名化'数据集中被正确重新识别。研究还开发了一个在线工具,该工具不保存数据,仅用于演示目的,帮助人们看到哪些特征使他们在数据集中独一无二。