再也别乱扔信用卡小票了。在1月30日的《科学》杂志上,来自麻省理工学院媒体实验室、丹麦奥尔胡斯大学和新泽西罗格斯大学的几名科学家发表了一篇论文,证明了仅需4组较精确的支付时间、支付商家和交易数额,就基本可以确定持卡人的所有消费记录,准确率可达90%;甚至仅仅有较模糊的支付数据,也很有可能泄露消费历史。
研究者们取得了一个匿名信用卡消费数据集,其中包括了来自某个经合组织国家的110万人在1万个商家的消费记录。这份数据集很简单,只有用户ID、支付数额、精确到天的支付时间和精确到商家的地点,而没有明显的身份信息,没有电话号码,没有姓名,也没有住址。但是即便如此,通过对消费空间、时间和消费能力的对比,他们还是能够将消费记录和某个用户ID对应起来。
这意味着,只要知道你的几次信用卡交易具体信息,就可以知道你的所有信用卡消费记录。这可能不是件新鲜事,毕竟信用卡数据早已用于个人信用评价、欺诈检测和购物模式分析了。实际上,信用卡公司可能比你还早就知道你的信用卡被盗用——每个人都有独特的购物模式。
但这项研究揭示了一种新的危险——我们往往认为在一大批匿名数据中,很难将特定用户与ID对应起来,但这项研究则证实并非如此。个人消费的独特性比我们以直觉得出的结论要高得多。
值得注意的是,女性用户比男性用户更容易识别,高收入用户也比中低收入用户更容易被识别。这份数据集还算全面,因此在真实世界中,我们的消费记录也并不安全——这份数据集中,24%用户为女性,76%用户为男性;39%用户收入水平低于收入中值,35%用户收入水平在中值和2.5倍中值之间,还有22%高于2.5倍中值。
这篇论文的第一作者是麻省理工学院媒体实验室的伊芙-亚历山大·德蒙鸠依(Yves-Alexandre de Montjoye),他一直在研究人类行为数据和个人隐私的冲突。在2013年,他和同事们发表过一篇论文,证明了因为运动模式的可预见性,只需要知道同一部手机的四个位置点和相应时间,就可以以95%的准确率定位一个用户。
一年后,他的另一篇论文表明,通过移动手机通话记录,包括通话时间、地点、时长、联系频率等数据,可以以较高的准确率预测手机用户的性格特质。为了避免网络对个人的侵犯,他还开发了一种叫做OpenPDS的服务,帮助人们保护那些自己不想泄露的个人数据——其中,PDS是Personal Data Store的缩写。