凯西·奥尼尔：盲目信仰大数据的时代必须结束

凯西·奥尼尔：盲目信仰大数据的时代必须结束 | 算法密码原创叶伟民知识分子 2018-02-03

►图：在TED演讲中的凯西·奥尼尔

“算法密码”系列第5篇《知识分子》科学新闻实验室第18篇

撰文 | 叶伟民（《知识分子》科学新闻实验室特邀作者）

责编 | 黄永明

上一篇“算法相亲”的故事发表后，我被争吵包围。因为它触及了一个既美好又虐心的话题——爱情。算法的介入，就像怪咖闯进了伊甸园，技术派和浪漫派的意见迥异得仿佛来自两个星球，前者信奉“万物可算”，后者则捍卫人类宝贵的“自由意志”。

这个碰撞早就被科幻作家列入思索之列，从而诞生了众多反乌托邦电影。《少数派报告》便是其中之一。它的故事发生在2054年的华盛顿特区，谋杀在这里已经绝迹。一支预防犯罪小组依赖“先知系统”准确预测所有罪行，并在发生前逮捕“罪犯”。如果你被盯上，是绝无可能抗议和挣脱的，因为“先知”是不容置疑的最高权威。

数据科学家凯西·奥尼尔很欣赏这部电影，还把它写进了畅销书《数学毁灭性武器》。凯西是约翰逊实验室的高级科学顾问，哈佛大学数学博士，还曾任巴纳德学院教授和华尔街量化分析师。她现居纽约，染着一头蓝发。

2008年以前，凯西过着标准的曼哈顿技术新贵生活，但金融海啸让她惊醒。她看到了疯狂的财富游戏背后所隐藏的技术深渊。此后，她参与发起“占领华尔街”运动，并且要告诉人们更多真相——算法和大数据在光环之外，还是更多歧视、偏见、不公的源泉，纵使其进行得相当隐蔽。

过去一个月，凯西通过邮件向我分享了她的故事。离开华尔街后，她从技术缔造者的身份抽离出来，聚焦那些被技术统治却无力抵抗的角落，例如被算法解雇的中学教师、被犯罪预警系统过度执法的有色公民、被基金模型盘剥却浑然不知的底层……她把背后的始作俑者称为“weapons of math destruction”，谐音布什政府当年针对伊拉克的“大规模杀伤性武器”[1]。

也恰如其谐义，算法在解决越来越多难题的同时，也接管人类让渡的部分裁决权。它不断进化，逐渐在教育、执法、金融、社会保障等领域占据统治地位。它不靠暴力维持，而是凭神秘的科技外衣加持，树立起普通民众无法穿透的隐形权威。它所蕴含的新奴役关系，已引起科学界和思想界的注意，甚至被形容为“最安静的恐怖主义”。

2017年4月，凯西登上TED，向公众坦陈了这些鲜为人知的“黑盒子”和并不乐观的未来。惊愕过后，人们报以持久的掌声、欢呼和口哨，包围了她已重复过无数次的警示——“盲目信仰大数据的时代必须结束。”

算法黑洞

麦法兰中学是位于华盛顿的一所平民社区高中，拥有如茵的草坪、联排红墙教学楼和多种族学生。女教师莎拉·韦索奇2009年来到这里，她对教育非凡的热忱很快感染了同事和家长。

“她是我见过最好的老师之一。”麦法兰中学家长教师协会负责人布莱恩·多尔西说，他的女儿是莎拉的学生，“每次见她，她不是在辅导孩子，就是与他们谈心。”

学校2011年5月对莎拉的评估报告也佐证了这一点：“我们很欣慰看到这么一个教与学互动积极、运转高效的课堂。”莎拉还被推荐到其他学校分享经验。

然而仅两个月后，莎拉被解雇了。一套叫“IMPACT”的教师评价系统认为她相当失败，原因是她任教班级的阅读和数学成绩没有实现预期增长。

这次教学评价源自华盛顿特区自2007年推行的教育改革方案，时任教育局局长李洋姬将这里低迷的高中升学率归咎于教师的失职。这位作风凌厉的女士决心炒掉数百名表现差劲的教员。为了让落刀更加精准高效，她引入一套计算机算法系统，即“IMPACT”，它通过琳琅满目的指标和一个极其复杂的回归方程，组成一个“增值模型”，自动为每位教师打分并决定其命运。

纵使莎拉的其他指标非常优秀，但“增值模型”的得分却异常低。她很愤怒，写信质询教育局：“我想知道，这些数据是怎样计算出来的？”

没有人理会她。《华盛顿邮报》为此写了一个报道，标题充满黑色调侃和同情——《我激情，我创造，我被炒了》。很快，莎拉收到一封来自纽约的邮件，是凯西。

凯西被这个案例吸引，她给莎拉打电话，掌握更多细节，逐渐看清其中的猫腻。两位女士还共同查阅莎拉班上一些转学生的过往成绩，发现他们在前一所学校的阅读分数都异常高，是所在学区平均分的五倍。莎拉在实际教学中却发现相反的事实，这些学生连阅读简单句子都困难。凯西又查阅媒体，发现该学区涂改测验成绩的现象非常普遍。也就是有人作恶了，然后把这些虚高的成绩交到老实人莎拉手上，并通过算法让其受到不公惩罚。

莎拉将这一发现向管理部门举报，得到的回复是：必须明确指出作弊老师和学生的名字，还要有充足的证据反驳“IMPACT”的打分。这几乎是一个黑客级的难题，而莎拉只是一个社区中学五年级的老师。

随着研究的深入，凯西发现了“IMPACT”系统更多的底层逻辑漏洞。“学生的成绩受很多因素影响，要量化一个教师在其中的作用非常困难，也非常复杂。”她说，“而且仅凭二三十个学生的成绩来决定一个人的去留，在统计学上也是靠不住的。”

“IMPACT”系统最终解雇了两百多名教师，主导者却没有获得期望中的支持。当地工会的民意调查显示，民众对教师清洗行动“非常不满意”，一些教师协会也举行抗议，并帮助遭受不公对待的教师提出申诉。这最终影响了时任市长艾德里安·芬提的连任，教育局局长李洋姬也随之辞职。

无论如何，算法对莎拉的判决已无法挽回。但幸运的是，她仅失业了几天，在很多同行和家长的推荐下，很快在一个富裕社区学校找到教职，而且那里不再有机器给她打分。

“拜一个非常可疑的模型所赐，穷人的学校失去了一位好老师，富人的学校却得到了她。”凯西说，“未来，富人的事务会由人打理，平民的事情则交由机器。”

它没有公平的概念

在美国，莎拉的故事并不是孤例。不同版本的“IMPACT”系统正在超过一半的州推行，支持者则是整个联邦政府。这是奥巴马时代教育改革的遗产，却没有得到教育界的拥护，多地教师向法院起诉此类算法并在纽约州和休斯顿获胜。

但这种有所成效的抗争仍是幸运的少数。在许多领域，算法的统治进行得更加隐蔽和难以反驳。例如执法。

凯西曾研究过一个算法执法的样本——宾州小城市雷丁。这个紧挨费城的资源枯竭城市，贫穷率已攀升至全美之最（41.3%），与之相伴的是同样高企的犯罪率。雷丁政府缺钱，裁掉了45名警员，将省下的经费购买了犯罪预测系统PredPol。

这个“救星”非常强大，可以分析一个地方的犯罪历史数据，逐小时计算不同区域的犯罪发生率，再在地图上以网格形式呈现计算结果。最后，只要加强对有高风险提示的网格巡逻，就能遏制犯罪。一年后，雷丁政府宣布，盗窃案减少了23%。

类似PredPol的犯罪预测系统在美国大受追捧。除雷丁外，纽约、亚特兰大、洛杉矶等大城市也在其列。如今这已成为一股世界性潮流：在中国，北京等一线城市也启用算法和大数据来协助降低犯罪率。

“它们看上去足够高效，也足够公平。”凯西说，“起码从表面上看，它们只是预测事情，而不会考虑人种、种群等因素。”

►图：犯罪预测系统正在被广泛应用

犯罪可被预测，是“犯罪统计学”和“道德统计学”共同呈现的结果。后者可能有些费解，简单来说，就是基于这样一个事实：在对象足够多时，人们的自由选择权就会消失，甚至会丧失理智。凯文·凯利的畅销书《失控》对此也有类似的阐述。

1820年代末，统计学家盖里和凯特莱对法国的犯罪数据进行研究，发现每年的犯罪行为特点几乎保持不变，连使用枪支、刀剑、拳脚、棍棒的谋杀案比例都年年相似。他们得出结论：犯罪行为可以准确无误地进行自我复制。

但问题远不止这么简单。算法模型一旦运转，执法行为就会增多，产生的新数据又会进一步证明加强执法的必要性。形象地说，就是哪里前科越多，哪里就越受算法“关照”，最终形成一个失真、甚至有害的回馈环路。

从种族角度看，有色人种多聚居于贫困社区，由于那里历史犯罪率高，算法会不断指派警察去那里巡逻，最终结果是更多有色公民被抓或盘查。这还是难逃种族偏见的怪圈。

从阶层角度看，被算法纳入预测的都是常规犯罪，有钱人玩的金融欺诈和高智商犯罪并不在其中。也就是说，算法再精准高效，也只是协助警察瞄准穷人。

凯西做过一项调查，曾被警察拦截搜身的男性中，有85%是黑人或拉美裔。频繁的光顾又会放大一些可有可无的轻微罪行（例如公共场所抽烟和未成年饮酒），导致这些人与警察冲突加剧，甚至因此被捕。纽约公民自由联盟的调查数据显示，黑人坐牢的几率是白人的六倍，被警察杀死的概率则是白人的21倍。

纵使情况已如此严重，除了固有的种族歧视因素，仍没有多少人意识到这里面也有算法的功劳。人们仍然以为技术是中立的，并且信奉一种很低的成功概率——如果能打击犯罪，忍受一些不便和骚扰是值得的。

“算法的运用，往往面临公平与效率的取舍。”凯西说，“法律维护公平，所以牺牲效率。算法则刚好相反，它没有公平的概念。”

让人类保留最后一步

算法取得裁决地位的领域在不断增多，除了上述的教育和执法领域外，金融、法律、资讯、招生、求职、个人信用等都相继被圈进其权力范围。缔造者的初衷本不值得怀疑——要摆脱人脑的偏见和运算短板，用算法、模型、机器学习重塑一个更加客观的世界。

然而，大众对“技术中立”的过度误解，恰恰滋养了新的灰色空间，演变成当下越发狂热的大数据崇拜思潮。数据科学家弗雷德·班奈森为此创造了一个流行词——“数学洗白”（Mathwashing）。凯西也有近似的观点，“大数据并没有消除偏见，我们只是用技术来掩饰它。”

以色列历史学家尤瓦尔·赫拉利沿着这些忧思，在《未来简史》中描绘了这么一幅远景——“人类将把工作和决策权交给机器和算法来完成，大部分人将沦为‘无用阶级’。只有少数精英才能真正享受到这些新技术的成果，用智能的设计完成进化、编辑自己的基因，最终与机器融为一体，统治全人类。”

这个预言至少包含两层意思：一是算法本身会成为新的独裁力量；二是它将与少数精英合谋，成为奴役大多数人的工具。未来，我们求职、贷款，或申请户籍，或许都会像故事开头的莎拉老师一样被机器判决，任何人都不要妄想申诉，那些复杂的算法是天然的高墙。

算法缔造者躲在高墙背后，偷偷植入偏见、歧视和种族主义。这在世界范围内已渐成现实。Google曾将两名黑人的照片标注为大猩猩，Flickr也将有色人种图片归为动物。

2015年，苹果Siri也摊上了事儿。一名俄罗斯用户Alex问它同性恋酒吧怎么走？Siri说：“如果可以脸红的话，我就已经脸红了。”Alex再问它对同性婚姻的看法，Siri的回应是：“我相信这是一种负面的情感。”

这些事件仅揭开了冰山一角，更多难以察觉的偏见在隐形横行。卡内基梅隆大学2015年做过一个实验，让500名男性与500名女性点击100个招聘网站，结果男性收到高薪职位信息的几率是女性的六倍。

进入2016年，生物识别技术升温，一个叫做Faception的以色列公司宣称能用算法识别恐怖分子。美国的机场曾使用过类似技术，结果平均每周有1500名乘客因此遭殃，其中一个4岁男童、数位前陆军少校和一名飞行员被多次认定为“恐怖分子”，最高纪录者一年被羁留80次。►图：一些商业公司声称能用算法识别恐怖分子

同样触碰公众神经的还有上海交通大学教授武筱林的“看脸识罪犯”研究，称可以让机器通过学习，分辨谁是罪犯，谁是守法公民。论文发表后，舆情立即被点燃，一个交大校友写信给武筱林说：“这篇论文充满了极度的歧视和强烈的误导。”

武筱林通过媒体反驳：“这个研究只是揭露相关性，而非因果，我本人也非常反对歧视。“

“是不是就会有一些禁区，研究者不能去碰它？坦白讲我不知道。”虽正名心切，但武也毫不掩饰他的疑惑，“核物理学家该为原子弹造成的伤害负责吗？”

面对算法时代的诸多迷思，社会学者的探索方向与自然科学家既交融又迥异。中国人民大学国家发展与战略研究院研究员马亮是少数关注“算法偏见”的中国学者之一。2017年年末，他在社科媒体“政见”上发表文章，讨论大数据导致的社会不公和阶层固化。

“原本由人掌握的自由裁量权，正逐步交由算法和系统。”他说，“一个人执法错误尚且可控，但系统性的错误则是灾难。”

马亮长期关注社会治理中大数据的应用，走访过许多互联网公司。他发现，个人的数据越来越往少数寡头聚集，形成一个个无法穿透的“黑箱”。

“要粉碎‘黑箱’，开放数据是第一步。但现实情况是，这仍很遥远。”马亮说，“如果数据不纯或被篡改，计算结果也会崩塌，偏见和不公就会产生。”

凯西的解决方案是回归人本主义——“让算法指出可疑之处，由人类去完成最后的核查”。她研究了一个虐童风险预测模型：如果交由算法去裁决并惩罚，肯定会毁掉很多无辜的家庭，但如果让社工按照预测名单去走访和提供帮助，则是另一个温暖的结果。

佛罗里达州希尔斯伯勒县试水过这个方案，两年间再也没有儿童因虐待而死亡。

“它们的运作必须是透明的：我们必须知道它们接受哪些数据输入，产生什么结果，而且它们必须接受稽查。”凯西说，“这样我们才能规管它们，驯服它们。”

关于作者

叶伟民，媒体人。毕业于兰州大学核物理专业。曾任ZAKER总编辑，《南方周末》特稿编辑、记者。现从事互联网，同时是多家平台的签约作者和写作导师。

注释

[1] 大规模杀伤性武器的英文全称为“Weapons of Mass Destruction”，凯西将Mass换成Math（数学），既谐音又谐义。

译名对照表

凯西·奥尼尔 Cathy O’Neil

莎拉·韦索奇 Sarah Wysocki

布莱恩·多尔西 Bryan Dorsey

李洋姬 Michelle Rhee

艾德里安·芬提 Adrian Fenty

安德烈·米歇尔·盖里 Andre Michel Guerry

阿道夫·凯特莱 Lamber Adolphe Jacques Quetelet

雷德·班奈森 Fred Benenson

尤瓦尔·赫拉利 Yuval Noah Harari