人工智能影响着一切,从招聘决策到贷款批准。然而不幸的是,它像我们一样充满偏见。2010年一个秋天的早晨,萨菲亚·乌莫加·诺布尔(Safiya Umoja Noble)坐在伊利诺伊州家中的餐桌前,在谷歌上搜索了一些词汇。彼时,她正准备与她十四岁的继女和五个小侄女一起过夜。诺布尔不想再让孩子们盯着手机,又怕她们放下手机会直奔笔记本电脑,于是先检查了一下电脑里是否会找到不宜的内容。
几乎同时,在美国的另外一座城市,计算机科学家乔伊·布兰威尼(Joy Buolamwini)发现了AI的另外一个代表性问题。乔伊出生在加拿大,父母来自加纳,她发现当时先进的人脸识别系统,例如IBM和Microsoft使用的人脸识别系统并不能识别她深色的皮肤。有时更糟,程序根本发现不了她正站在前方。
当时她是佐治亚理工学院的一名学生,正在研究一个机器人项目,却发现本应识别并躲避用户的机器人根本无法认出她来。
人脸识别技术和搜索引擎只是人工智能的两个专长,人工智能是一门训练计算机执行人脑特有功能的学科,包括数学、逻辑、语言、视觉和运动技能。自动驾驶车辆可能还不能在城市的街道上来去自如,但像亚马逊的Alexa那样的虚拟助手,已经能够随时准备着为你在心爱的咖啡馆预订一个午间会议室。
人工智能语言处理的优化意味着,你可以在自己的手机上用英文读一篇俄语报纸上的文章。人工智能推荐系统非常擅长根据你的口味选择音乐,或推荐Netflix上的电视剧,帮你度过一个愉快周末。
我们生活中受AI系统评估的领域不仅仅局限于此。在某些情况下,我们的时间是最宝贵的:例如,当你去银行办理业务时,你在等待列表中的位置可能并不是按顺序来的,而是取决于你作为客户的价值。
人工智能也逐渐影响我们潜在的就业机会、资源获取和健康。应聘者追踪系统通过扫描简历的关键词,来帮助招聘经理筛选候选人。算法目前可以评估谁有资格获得贷款以及谁会受到欺诈调查。风险预测模型确定哪些患者最有可能在45天内再次住院,哪些患者更适合出院,哪些患者更需要过渡性医疗服务。
AI也能够引导和通知各地警方以及联邦安全部门哪里有险情。2017年3月,加拿大边境服务局(Canada Border Services Agency)宣布将在其最繁忙的国际机场安装人脸识别软件;从温哥华到渥太华再到哈利法克斯这几个地方的售货亭,现在都使用该系统来确认持护照者的身份,并根据加拿大政府招标书的规定,“提供旅行者风险自动评估”。
这些技术的价值在于它们的效率、成本效益、可扩展性,以及高度中立性。“统计系统具有客观性和权威性。”多伦多一家专注于人工智能的初创公司的产品和战略副总裁凯瑟琳·休姆(Kathryn Hume)说道。如今人类的决策可能是混乱而不可预测的,受情绪、甚至距离吃过午餐时间的影响,“数据驱动的算法为我们呈现了一种不受主观或偏见影响的未来,但一切远远没有那么简单。”
人工智能可能已经破解了某些通常需要人类智慧来完成的任务的“代码”,但为了学习,这些算法需要大量人类生活中产生的数据。它们将这些信息连接起来,在寻找共性和相关性的过程中进行搜索,然后根据它们检测到的运算模式,提供一个分类或预测。然而,它们的智慧仅源自它们的训练数据,这意味着我们的局限性——我们的偏见,我们的盲点,我们的无知——也被赋予了它们。
今年早些时候,布兰威尼和他的一位同事发表了对三个领先的人脸识别系统(分别由微软、IBM和Face++开发)测试的结果,检测它们识别不同肤色人的性别的能力。这些系统识别浅色肤色男性的正确率均高于99%。但是,数据集严重偏向白人并不是什么了不起的事情;在另一个广泛使用的数据集中,用于识别身份的训练图片集得到了78%男性和84%白人的正确率。
当布兰威尼在黑人女性的照片上测试人脸识别系统时,该算法出现了约34%的错误率。肤色越深,系统运行的效果越差,错误率在47%左右——相当于投掷硬币的概率。当黑人女性出现在系统面前的时候,系统认不出她来。
布兰威尼能够计算出这些结果是因为人脸识别系统是公开的,她可以在自己收集的1270张非洲和北欧政治家的照片中测试这些程序的运行情况。在这些国家的政界,女性就职的比例很高。这对于探索为什么技术在有些预测中失败率高,是一个很难得的机会。
但是技术透明只是例外情况,并不是通用规则。大多数应用于商业的AI系统,如关系到我们的工作、信用和贷款的中介服务都是专属的,它们的算法和训练数据隐藏在公众视野之外。这使得个人很难质疑机器的决定,也无法知道受人类偏见扭曲的历史数据所训练出的算法是否对自己不利。
如果你想设计一个智能机器,从挖掘一个聪明人的专业知识开始就不错。早在20世纪80年代,开发人员就用所谓的专家系统实现了早期的人工智能突破。在这个系统中,会有一个有经验的诊断师或机械工程师帮助设计代码来解决一个特定的问题。
另一方面,机器学习是人工智能的一个分支,它教会计算机通过分析模式来执行任务,而不是系统地去应用既定规则。大多数情况下,这是通过一种被称为监督学习的技术来完成的。人类还没有摆脱困境:程序员必须整合她的数据(称为输入),并为其分配标签(称为输出),以便系统知道要查找什么。
深度学习是机器学习中的一个分支,它受到我们大脑工作方式的启发。简而言之,大脑是由数万亿个突触连接起来的数十亿个神经元的集合,而这些连接的相对强度会随着时间,通过学习过程不断被大脑调整。深度学习系统就是基于这个神经网络的电子模型。
这里有个插曲:在谷歌图片中输入“CEO”,你会搜索到一连串长得差不多的男性白人面孔。如果在加拿大搜索,还能看得到屈指可数的几位女性,其中绝大多数是白人女性,少数有色人种,还有神奇女侠演员盖尔·加朵(Gal Gadot)。在去年加州的机器学习大会上,一位主持人不得不在翻过一大堆穿着黑色西装的白人男士后,找到第一个女性CEO的照片——芭比娃娃。
数据量对AI系统的运行来说至关重要。系统越复杂——相应的神经网络的层数越多——必须收集的数据就越多。程序员可能要依靠素材照片或维基百科条目、历史新闻或录音;他们也查阅大学录取信息和假释记录;他们还想要临床研究与信用评级。
但并不是每个人都会平等地出现在数据里。有时,由于历史上对特定人群的排斥,导致AI功能的不完善:2017年,女性只占《财富》500强CEO中的6.4%,尽管这一比例相较去年已经提升了52%。加拿大卫生部直到1997年才明确要求将女性纳入临床试验;根据心脏及中风基金会的《2018年心脏病报告》,三分之二的心脏病临床研究仍然重点关注男性,这也解释了为何最近一项研究发现,半数以上的女性忽略了心脏病的症状。
有时,即使有足够的数据量,但是在分配训练集时没有采取有效措施来保证数据的多样性的话,就会导致人脸识别系统在识别不同人群的面部时出错率不尽相同(就像布兰威尼需要精致面具来骗过它)。由于缺乏具有代表性的数据,导致所谓的抽样偏差。通过优化手段,算法尽可能地少犯错,设法降低错误量。但算法的重点关注对象是由数据的组成决定的。
正因为如此,布兰威尼发现IBM的人脸识别技术准确率仍达到87.9%。浅色肤色女性与浅色肤色男性被系统识别正确的机率分别为92.9%和99.7%,至此,黑人女性将近35%的识别错误率可谓无关紧要了。微软的算法同样如此,布兰威尼发现系统判断性别的准确率达到了93.7%,但很巧,93.6%的性别判断错误出现在深肤色对象身上。但对此,算法并不需要在意。
如果花上足够时间与人工智能专家们进行深入交流,他们总会提到一个相同的道理:垃圾输入,垃圾输出。避免抽样偏差并确保系统正接受大量均衡的数据训练是可能做到的,但如果这些数据本身就受到社会偏见与歧视的影响,算法其实并不优于人类。
有时候,算法反映出来的偏见意想不到,甚至滑稽。网页搜索、聊天机器人、图像描述程序以及机器翻译正越来越依赖于一项叫做单词嵌入的技术。这项技术通过将单词之间的关系转化为数值,让系统在数学层面上表现语言的社会语境。借此技术,人工智能系统可以“了解”巴黎与法国、东京与日本之间的联系;还能“感受”东京与巴黎之间的不同联系。
为了实现算法的公平公正,程序员可以干脆摒弃种族与性别等属性。但就算把性别、种族等属性去除,这种根深蒂固的历史关联,无论如何都会让系统轻易“揣度”出其中的偏见。因此,计算机科学家们提出了一个解决方案:类似于管弦乐界的拉帘盲选,为了隐藏某人的身份,他们制造了一块屏障。
其实,越来越多的研究领域着眼于用算法消除算法带来的偏见。这可能就会涉及反设事实,让算法进一步分析某女性获得贷款后的各种可能性,而非仅仅以过去的信用等历史记录作为判断基准。这就意味着为算法加上约束条件,当算法出错时,确保错误可以被均摊到每一个代表群体。也可以为算法加上其他的约束条件,比方说,降低特定人群的大学入学门槛,确保某群体的入学率,这种措施被称为算法平权行动。
然而,算法干预的作用仍是有限的,消除偏见还需要拥有多元视角的机器训练程序员们,从一开始便对偏见予以关注。麦吉尔大学的多尼安·普雷卡普教授说:“甚至并非出于恶意,出身不同背景的人可能会完全忽视其他人的(文化)背景,并对自己所为带来的后果一无所知。”
如果乔伊·布兰威尼是IBM面部识别系统开发者,那么她在处理数据集时就会立刻发现,这项尖端科技在识别黑皮肤面孔时真的很糟糕。《算法压迫》的作者萨菲亚·诺布尔补充道:“对于种族主义和性别歧视没有更深入的认识,其后果远远比公关危机与见诸头条严重。这不仅意味着企业错失更多、更忠实的消费群体,还会在不经意间让企业的产品与服务成为社会的破坏者。”
让越来越多的人意识到算法偏见,不仅仅对构建更公正的AI系统有益,还给我们一个自我审视的机会:为什么我们创造出来的数据会存在偏见?哪些偏见会继续影响我们的社会?未来的社会还会容许这样的数据模式出现吗?毕竟算法只是一套指令。本吉奥强调说:“我们使用的算法是中立的,不中立的是神经网络,一旦使用那些包含了偏见的数据来训练神经网络,歧视将铺天盖地。这就是为什么,我们需要对收集的数据更加留心。”
为此,微软在今年3月带领一群研究者来到旧金山,在会议中提出了一种可能的解决方案。由于没有标准手段来确认数据集的创建方式,也没有警告标签来标明其中可能包含的偏见,他们提议在公共数据集与商业软件中附上一种数据表。该数据表将清楚说明训练数据是在何时、何地、如何制成的,并附有数据对象的人口统计学资料,为研究人员与机构组织提供必要的信息,以决定在何种情况下、如何使用数据集。
在欧洲,一项名为《通用数据保护条例》的全新隐私法规限制了对敏感数据的收集行为。法规要求操作者对算法决策作出解释,并保护完全机器决策下个人的权利。“虽然这些都是欧洲的法律,但是长远来看加拿大也可能采取类似的措施,以满足各类贸易需求。”加拿大首席研究员伊恩·克尔说。
当然,还有另一种解决方案,简洁而优雅、从头至尾的公平:获取更好的数据。
乔伊·布兰威尼的调查发现促使IBM启用更大规模的照片训练集,以改善面部识别系统在处理不同性别与肤色人群图像时的不平衡状况。于是,在IBM使用新系统识别来自瑞典、芬兰、南非和塞内加尔等国家的议员照片时,不算意外的事情发生了:对每个人而言,算法表现得都不错。不完美的地方还是有:深色皮肤女性的错误率仍然是最高的,为3.46%。
但是相较以往,错误率降低了10倍——道理很简单,只要把获取“好”数据作为优先事项,提升算法公平性是有可能的。就算一个只是半成品的智能机器也明白这一点。