赵洁玉发现这个问题的时候,正摩拳擦掌地准备开始自己第一个独立研究。那时,她刚加入弗吉尼亚大学计算机系攻读人工智能机器学习方向的博士,她的导师文森特•奥都涅茨(Vicente Ordóñez)扔给了她这个乍看有点哭笑不得的课题。面部识别已经不是稀罕事了 | MIT Media Lab。这年头,面部识别其实已经不是很难的事情了,分辨男女更算不上什么世纪难题,准确率应该很高才对。
当然,赵洁玉手头的AI任务要稍微难一点儿,不是分辨证件照,而是要辨认场景复杂的生活照。可就连相机里的小小程序都能极为准确地找到画面中的人脸而自动对焦,多点儿背景对AI来说能算什么难题呢?然而正是这些背景,以一种意料之外情理之中的方式扭曲了AI的“认知”。赵洁玉发现,男人被认成女人的图片有一些共同点——都是站在厨房里,或者在做家务。
她很快意识到,这并不是程序bug,也不是识别算法或者特征提取出了毛病,而是人工智能总把女人和某些特定的元素联系在一起,在下达判断时被这些元素带跑了。换句话说,这是一个会“性别歧视”的AI:它认为站在厨房里的就“该”是女人。把男人认成女人的 AI | 参考文献1。这样的歧视是怎么产生的呢?也很简单。如果你成长在一个“男主外、女主内”的社会,那么你便会天然地认为女人就该操持家务。
AI也一样,不过它“认识世界”的途径、也是歧视的来源,是它的“教学资料”——用于训练人工智能进行图像识别的数据库。关于性别的偏见不仅在数据库里普遍存在,而且还会被人工智能所放大。为什么会出现这种情况?怎么解决?赵洁玉和团队围绕着这两个问题写就的论文《男人也爱购物:使用语料库级别的限制法降低性别偏差》在自然语言处理2017年的年会上获得了最佳长论文奖,整个人工智能领域也开始逐渐意识到这个问题。