本次事件的核心可总结为以下几点:第一,Facebook和剑桥分析(Cambridge Analytica)所导致的这次事件,其真正灵感来源自Kosinski和Stillwell的研究,而始作俑者Kogan仅仅是一个抄袭者和操作者。第二,Facebook并没有被黑客入侵,也不存在数据‘泄露’或‘偷盗’一说,所有的数据都是用户自己同意出让的(隐私其实很廉价)。
第三,这个事件唯一违法的部分是Kogan把用研究名义取得的数据转手给了剑桥分析,用作他途。第四,根据现有信息,我们无法确定利用这五千万大数据所构建的模型是不是真正影响了美国大选和英国脱欧,作为因果推断的证据不足。只要我们继续在网络上留下电子足迹,我们的隐私就会继续被挖掘和用作他途,删除Facebook账号并不能解决今天的隐私危机。
Facebook和剑桥分析(Cambridge Analytica)数据泄露丑闻席卷了全球的社交媒体。在《卫报》和《纽约时报》的报道上,居然看到了我的两位合作者的名字:Michal Kosinski和David Stillwell, 可以说是相当魔幻了。这两位学者都是心理学家。Kosinski现在在斯坦福商学院教书,Stillwell在剑桥商学院教书。
虽然他们没有直接参与这次Facebook数据泄露事件,但称他们为始作俑者,应不为过。
事情要从2007年说起。当时还在英国诺丁汉大学念心理学本科的David Stillwell平时爱写一些小程序。毕业前,他在Facebook上发布了一个专门用作性格测试的第三方小程序:myPersonality。
和大部分不怎么靠谱的心理测试不同,这个小程序上的测试题是基于经典的心理学量表,比如大五人格量表(开放性,外向性,情绪不稳定性,随和性,尽责性)。参加测试是免费的,同时参与者还可以匿名捐献自己在Facebook上的行为数据作为研究使用。这个小程序取得了巨大的成功,据Stillwell自己统计,有六百万用户使用过这款小程序。其中一小部分用户同意捐出他们在Facebook上的行为数据供研究使用。
用户的心理性格测试数据与Facebook行为数据相叠加,就形成了包含有数十万用户的数据的myPersonality数据集。这个数据集目前还有很多学者在使用,包括笔者所在的实验室(www.mypersonality.org)。
就样本量而言,myPersonality数据集远远小于这次Facebook和剑桥分析所造成的数据泄露的数量(据说有五千万之多)。
但对于社会科学研究者,这个数据集无疑是一个金矿。这是为什么呢?传统的定量社会科学研究,收集数据的方法很有限,主要是实验和问卷两种。实验很难规模化,能达到几百人就相当不容易了。问卷方法也许可以收集几千人甚至上万人的数据,但是只能知道人们当时是怎么说的/想的(态度),而不是怎么做的(行为)。填过问卷的人都知道,怎么说和怎么做经常是两回事。
但myPersonality数据集把性格量表和用户的Facebook行为结合在了一起。而且样本量之大,远远超过了传统定量研究。
2008年,Michal Kosinski进入了剑桥大学,在心理测量中心攻读硕士。他和Stillwell带领了一个团队,用myPersonality这个金矿,在《美国国家科学院院刊》上发表了两篇极有影响的文章。
第一篇文章发表于2013年,题目是‘Private traits and attributes are predictable from digital records of human behavior’(个人性格特质可以用行为数据来预测)。
这篇论文的大意是,他们用用户的Facebook行为数据(主要是Facebook上点赞)建立模型,来预测用户的性格和其他特质(比如性别,性取向,党派),并且得到比较高的准确率。比如,赞Hello Kitty的人较神经质,更可能支持民主党而非共和党。
第二篇文章发表于2015年,题目是‘Computer-based personality judgments are more accurate than those made by humans’(基于电子足迹的算法模型比你亲近的人更了解你)。这篇的大意是,运用他们之前建立的模型来预测你的性格,竟然比你好友的预测还准确。
Kosinski和Stillwell的研究成果在当时取得了轰动,有两大原因。第一,大家意识到海量行为数据建模能够精准地预测用户性别、年龄、性取向、政治倾向、购买意愿……之前不管是营销公司,广告公司,还是公关,民调机构,要了解用户,只能辛辛苦苦做访谈,问卷,焦点小组。这些方法不但劳民伤财,准确率也不够高。电子足迹不但精准,而且俯拾皆是,只要是上网,每个人都会有自己的电子足迹。
这是也大数据结合人工智能的一次胜利。过去的几十年(弱)人工智能已经发展到了一定高度,但是算法再先进,也遵循GIGO(Garbage in, garbage out)原则:如果输入(数据)精度不够,输出(预测)也不会准确。Kosinski和Stillwell所用的算法并不高深,但海量的电子足迹充分发挥了算法的优势,因此取得了精准程度很高的用户心理画像。
第二,他们的研究启发了很多人,原来科研还可以这么做,原来可以通过第三方app获取Facebook的用户数据。要知道Facebook的海量行为数据极少对外界开放。虽然在Facebook上可以精准投放广告给用户,但是没有靠谱的行为模型做支撑,广告仿佛大炮打苍蝇,对绝大部分的受众都是打水漂。
但是有了myPersonality这样的先例,为大家提供了一个崭新的思路,那就是通过第三方小程序以获取Facebook的行为数据。
毫无意外,剑桥分析(Cambridge Analytica)找上了Kosinski和Stillwell。虽然叫剑桥,这家公司和剑桥大学没有任何关系。值得一提的是,这家公司的背后金主是Robert Mercer,他为英国脱欧和特朗普2016年大选做出了贡献。
而Mercer的另一重身份是伊利诺伊大学计算机系博士,曾经的研究课题就是人工智能。但剑桥分析并没有买到Kosinski和Stillwell的数据。根据《卫报》的报道,问题出在价格上。Kosinski和Stillwell要价50万美金,最终导致谈判流产。(这一点颇有争议,因为剑桥分析在之后和Kogan的合作时付出了更高的价格,花了近一百万美元。
)Kosinski和Stillwell的退出,给别人创造了机会。剑桥分析最后和同在剑桥大学心理系担任的讲师Aleksandr Kogan达成了协议(到底是怎么达成的协议,现在众说纷纭。Kogan本人说是剑桥分析找上门来;而剑桥分析却说是Kogan毛遂自荐)。
在剑桥分析的资助下,Kogan直接抄袭了Kosinski和Stillwell的研究设计,也写了一个专做心理测试Facebook第三方小程序:this is your digital life(据英国卫报报道,Kosinski和Stillwell早在2014年就举报Kogan侵犯了他们的知识产权,而Kogan则认为已发表的知识产权属于公众领域,谁都可以使用)。
在Mechaincal Turk和其他网络平台上,Kogan以五美元的酬金,吸引了27万用户答题并出让自己的Facebook数据。五美元是什么概念呢?Mechanical Turk是亚马逊旗下的兼职网站,上面有很多小任务,完成一项任务会有一定的报酬,但是任务的价格都非常低廉,耗时十分钟的任务的报酬在一角到一元美金不等。相较之下,五美元不亚于是一个天文数字。
所以这样一个小程序能够吸引27万人参加测试,也就不奇怪了。注意,所有的参加者都是心甘情愿地让出他们的Facebook行为数据的。Facebook并没有被黑客入侵,也没有所谓的数据‘泄露’或是‘偷盗’。因为在当时,Facebook小程序在用户同意的情况下收集数据是完全合法的。
那么,所有的报道中都提到了五千万用户,又是从哪里来的呢?
因为Kogan的程序不仅收集了用户本人的数据(以五美元做交换),也收集了用户的Facebook好友数据。一个用户可能有几百个好友,所以27万个‘种子’最后就变成了五千万用户。这里有一个很有意思的问题,就是数据的归属问题。张三有个朋友叫李四,这个信息是张三个人的信息,还是李四的信息?张三为了五块钱出卖自己的数据(其中包括李四的姓名,性别,年龄等等),需不需要李四的同意?
很多学者认为,在社交媒体上,隐私不再是一个个人的决定,而已经演变成一个网络共同的决定。但在当时,收集用户好友的基本信息是合乎Facebook规定的。不仅仅Kogan的小程序这么干,其他数十万个Facebook小程序都这么干。比如糖果传奇(Candy Crush)这样的小游戏,就靠好友的网络效应进行病毒式传播。一旦张三装了糖果传奇,游戏就可以通知李四:你的好友张三玩的很嗨,你要不要也试试?
2015年,Facebook调整了隐私设置,用户不再能够轻易地和小程序‘分享’自己的好友信息。这一改变还遭到许多Facebook小程序开发者的诟病。
到了这里,整件事情都还是合理合法的。下一步则不然。Kogan本人也是心理学家,他设计这个小程序时声称要研究社交媒体和心理健康。Facebook也是基于这个研究目的,才同意了他收集了五千万用户的数据。
但不久以后,Kogan就通过自己开的公司GSR,把这个庞大的数据集转手给了剑桥分析,其用途已经不属于学术研究。这一转手违背了Facebook的安全协议,也违背了小程序本身和用户之间的协议,是整个事件违法的部分。但也有人说,这时的数据集属于‘二手数据’(secondary data),在数据的监管上属于灰色区域。
Kogan当时和Facebook的用户签订协议时,明确指出收集数据是供研究使用,并且他也的确做了研究,那么数据完成了它的使命之后,是否应该直接删档(这是Facebook对Kogan的要求)?这时的数据到底归谁所有?(欧美多数的大学和研究机构在做人类相关研究时(human subjects),都会专门设立一个委员会(Institutional Review Board,IRB)来监管类似的伦理问题。
就笔者个人的经验,IRB对二手数据一般都网开一面。至少在学术界,因为A而收集的数据后来用作B用途并不少见。很多数据集都是开放下载的,比如斯坦福的SNAP,Dataverse等等。前文提到的myPersonality数据集,也对学术界全盘开放。)
之后的故事大家都知道了。
剑桥分析运用这个数据量超过五千万的超大规模的用户数据建立模型,其目的就是找出符合某种特定心理画像的选民(低开放心性,高情绪不稳定性)。在美国‘赢者通吃’的大选制度下,绝大部分的选票对选举结果都没有影响(比如说深红州和深蓝州的选票)。还有一部分选票,无法被广告左右(比如民主党或者共和党的死忠粉)。能左右选举结果,且可以被广告影响的选票数量微乎其微。
但是一旦有了一个特定的心理画像,剑桥分析就可以在茫茫人海中找出他们要的这一小部分选民,然后集中精力给这一小部分选民施加影响就可以了。他们买了大量Facebook广告对这些人进行狂轰滥炸,进行所谓的‘信息战争’(information warfare),以达到操纵大选的目的。
那么,这五千万数据和模型,真的如剑桥分析所说,操纵了2016年美国大选,影响了英国脱欧吗?
对于这个问题,我们可能永远也不会知道答案。不管媒体如何渲染报道,科学上的因果推定有严格的标准。当因变量X存在时,我们观察到了结果Y,无法做出X导致Y的推断。就像一个小朋友爱吃冰激淋,后来发现了蛀牙,很难说冰激淋直接导致了蛀牙(可能这个小朋友同时爱吃糖,不刷牙,或者其他原因导致蛀牙)。
只有当我们能直接对照两个一模一样的平行宇宙,在一个宇宙里这个小朋友爱吃冰激淋,另一个宇宙里不吃,然后比较结果,才能得出最令人信服的因果推断。可惜,这样的平行宇宙并不存在。所以,剑桥分析究竟有没有影响大选结果,影响有多大,也只能永远存疑了,这就是整个证据链里最为薄弱的一环。就连Kogan本人,也对此不置可否。一位教授直接发信去问Kogan,剑桥分析所用的模型究竟有多精准。
Kogan的回答是,根据Facebook大数据建模预测出来的选民性格和选民的实际性格(根据心理学量表)仅有30%的相关性,而这个准确率比之前Kosinski和Stillwell的模型所给出的准确率还要低。不管Kogan的回答是否可信,即使他的模型有效,能找出符合特定心理画像的选民。但是用假信息广告轰炸符合这个心理画像(低开放性,高情绪不稳定性)的选民究竟有没有作用?是不是真的让他们选择了特朗普?
永远都只是一个未知数。
事件发生以后,Facebook的股价大跌,市值蒸发超过700亿美元。另有很多人发起了删除Facebook账号的行动。但是这一切现象都只是表面,并不需要当真。因为删除Facebook账号并不会从根本上解决今天我们所面临的隐私危机,原因如下:第一,Facebook有超过20亿活跃账号。
也许Facebook已经不是年轻一代最爱用的app了,但它依然是全球最为广泛使用的社交媒体平台,拥有全球最多最广最全的行为数据集。第二,删除了Facebook,我们还有Google,Twitter,Snapchat,Netflix,微博,微信,淘宝,今日头条等各种互联网接入商……我们的数据不给Facebook,也会给别的网络平台。
当用户数据变成所有平台核心竞争力的今天,剑桥分析所导致的事件只不过是众多类似事件中的冰山一角罢了。笔者给学生上社交媒体课的时候,都要问一问大家:怎样操作才能保证自己的裸照不被泄露?正确答案是,不要拍裸照。只可惜,这个答案在今天已经不现实了。我们在互联网上做任何事情都会留下电子足迹。
买东西,叫外卖,看剧,打车,乘坐高铁和飞机,上各种社交平台……当一切都电子化,所有的信息都有电子存档,我们的足迹也一览无遗。大数据结合人工智能,可以根据这些海量足迹建模型,卖给我们东西,灌输给我们思想,改变我们的行为,这一切早已发生,并不会因为一个剑桥分析的爆料就有任何改变。从前意义上的‘隐私’早已死去。
如今我们尚能做的,也许就是更好管理自己的隐私,呼吁监管,要求各平台对数据的存储,建模和买卖,更加透明。再大胆预测一下,也许某一天,‘数据烟幕’公司会出现,为客户建虚假账号,留下虚假电子足迹,也许这才是保护隐私的新方法。