每到夜晚,Fien de Meulder 就会坐在她的 Linux 电脑前,从路透社的新闻文章中摘取的句子标记人名、地名和组织名称。De Meulder 和她的同事 Erik Tjong Kim Sang 都在安特卫普大学从事语言技术工作。即便在 2003 年,每周 60 小时的工作时间在学术界也是常事。她靠喝可乐保持清醒。为了完成一个开源数据集的开发,这些辛苦都是值得的。
这个开源数据集将用作一类被称为命名实体识别(NER)的任务。当时,这类任务刚刚开始蓬勃发展,它旨在帮助机器学习模型对文本中的实体进行识别和分类,是自然语言模型的基本组成部分之一。没有 NER 作为基础,在线搜索、信息提取和情感分析等应用将举步维艰。一般而言,实体包括人员、地点和组织等,这些概念将是 AI 能够收集文本含义的关键。
举个例子,在这些类数据集上受过训练的系统,可以分析包括名称 “Mary Barra”、“ General Motors” 和 “ Detroit” 三个实体的一段文本,可能推断出该人(Mary Barra)与公司(General Motors)有关联,并且在指定的地点(Detroit)居住或工作。
Tjong Kim Sang 和 de Meulder 所进行的这项工作,重点关注 4 个实体:PER(人员),LOC(位置),ORG(组织)和 MISC(其他,包括所有其他类型的实体),选取的新闻文章则包括西班牙语、荷兰语、英语和德语四种不同的语言。遗憾的是,2003 年 Tjong Kim Sang 和 de Meulder 在进行这项工作时,没有考虑太多的偏见问题。
数据实战派利用真实数据,提升分析能力,共建有趣的大数据社区。而他们那时创建的 CoNLL-2003 数据集,在去年被发现存在显著偏见。此时,CoNLL-2003 已经成为构建 NLP 系统最广泛使用的开源数据集之一。偏差所在在 CoNLL-2003 问世已经 17 年后,一家名为 Scale AI 的公司,于一次试验中对 CoNLL-2003 数据集存在的偏见进行量化。
Scale AI 通过使用自己的数据标注流水线发现,CoNLL-2003 标注的大约 2 万个新闻句子中,男性名字比女性名字多得多提到 “男性” 名字的次数几乎是其的五倍。CoNLL-2003 中的 “女性” 名称。只有不到 2%的名字被视为 “性别不明”。这会造成什么后果?
当 Scale AI 在另一组单独的名字上测试使用 CoNLL-2003 训练的模型时,这个模型错过一个新出现的女性名字的可能性,比一个新出现的男性名字高 5%。这已经是显著差异。Scale AI 在美国人口普查数据上测试了该算法,根据报告,它在识别女性名字上的表现明显更差了。
所有这些都意味着,在 CoNNL-2003 上训练的模型,不仅在识别数据集中包含的当前名称时会有不足,这种不足很可能会随着时间的推移表现得更糟。在 CoNNL-2003 上训练的模型已经在处理女性姓名上遇到了麻烦。而在识别少数族裔、移民、年轻人以及任何其他 20 年前新闻中鲜少报道的群体的姓名上,它还可能会更差。
“如果无法识别人们的名字,那么对于真正重要的各种自动化系统来说,这些人将变得不可见,” 麻省理工学院助理教授、麻省理工学院语言与智能组成员 Jacob Andreas 博士说。截止 2020 年,CoNLL-2003 在研究文献中被引用了 2500 多次。
如果检索与 CoNLL-2003 相关的新闻报道或者研究文献,你会发现,业内在提到 CoNLL-2003 时,使用了将 CoNLL-2003 视作权威的描述:Benchmark、Grading system、Yardstick、重要基准、衡量标准…… 近二十年来,它已经被用作无数算法的构建模块或磨砺工具,成为构建可识别文本中命名实体的算法的标准。
如果一个算法在 CoNLL-2003 上运行后表现良好,可以认为它对实体的分类方式与人类对实体的分类方式非常吻合,那么,它就会被视作是成功的,是该领域的开创性工作。但当我们发现偏差的存在,实际上,顺利通过这样的测试将变得令人担忧。因为这意味着,模型的建立强化了数据集最初的一些偏见。当新的模型比旧的模型更出色,那么它很可能与数据集的初始偏见更加一致。
雪上加霜的是,我们将很难确定 CoNLL-2003 被用于哪些具体的商业算法、平台和工具。“公司往往对他们具体使用什么训练数据来构建模型讳莫如深,”Andreas 博士说。但该数据集被广泛认为是同类数据中最受欢迎的数据集之一,经常被用于构建金融服务和法律等行业的通用系统。直到今天,CoNLL-2003 仍被作为一种评估工具,用来验证一些最常用的语言系统。
例如,将人类的语言单词转化为 AI 能够理解的意义和语境的 “词嵌入” 模型,包括 BERT、ELMo 和 GloVe 等基础模型。一切受 CoNLL-2003 影响的模型,反过来也会产生了自己的连锁反应。例如,GloVe 在 Google Scholar 上已被引用了 15000 多次。
涟漪效应这背后引申出来的问题,甚至已经与 CoNLL-2003 无关,而是更广泛存在于机器学习系统中的各类偏差。《新科学家》曾经报道过麻省理工学院媒体实验室研究生 Joy Buolamwini 的个人经历。她曾注意到,商业化的人脸识别软件可以识别浅色皮肤的同学,却无法顺利 “看到” 她的脸。而当她进一步深究时,她发现人脸识别软件和其他 AI 系统中的种族和性别歧视偏见几乎并不罕见。
类似的,亚马逊曾在 2014 年开发了一个实验性的内部工具,用于筛选技术岗位的求职申请。虽然它的设计是中立的,但该工具被 “喂入” 了他们现有软件工程师的数据。而这些数据的主体绝大多数是男性。性别失衡的情况被该工具发现并继承下来,申请技术职位的女性并没有得到公平的对待。与此类似,亚马逊在 2014 年开发了一个实验性的内部工具,用于筛选技术岗位的求职申请。
虽然它的设计是中立的,但该工具被输入了他们现有软件工程师的数据。绝大多数是男性,性别失衡的情况被该工具发现并继承下来,进而歧视申请技术职位的女性。需要说明的是,该工具从未用于评估实际的求职者,它最终被终止。尽管亚马逊的团队尝试过努力修复出现的偏见,包括手动调整,但该公司得出的结论是,无法保证它不会设计出其他具有歧视性的候选人排序方式。
想象一下,一把微微弯曲的尺子,被视为测量的通用标准,用它去丈量万物,偏差会在一次次的传递中放大和延续。数据集作为模型的上游存在,它所产生的涟漪效应是不可估量的,其偏差的影响也是如此。具有各种偏差的数据集被用到训练 ML 系统上,这些 ML 系统再部署到现实世界中,意料之外的影响将只增不减。
鉴于这种效应的存在,Scale AI 的创始人兼 CEO Alexandr Wang 将机器学习描述为某种程度上的 “纸牌屋”,新生研究在彼此之上迅速建立起来的,却不是每个人都会思考这个链条是否基于坚实的底牌。再回到 Scale AI 对 CoNLL-2003 进行偏差的实验上。他们对这种偏差的存在感兴趣,也是由其商业模式推动。
这是一家为客户提供数据标注 pipeline 来构建和管理数据集的数据标注公司,成立于 2016 年,其公开客户包括 Airbnb、Pinterest、OpenAI、Lyft、丰田、DoorDash 等。
确认 CoNLL-2003 存在偏差之后,Scale AI 在 CoNLL-2003 的初始数据中添加了 400 多个额外的 “女性” 名字,创建了一个新的开源数据集,名为 CoNLL-Balanced。Scale AI 的初步结果表明,新算法在两类名字上的表现都相当不错。但这仍然可能无法解决根本问题。在大量的行业会议上,已经有很多专家们明确表示,增加数据集的代表性只是其中的一个 “创可贴”。
从各个层面来说,科技界希望 “为社会问题找到一个系统性的技术解决方案”,数据科学家 Brandeis Marshall 说。当涉及到女性、BIPOC(有色人种)和 LGBTQ + 个体的权益时,还有很多工作要做。单单重新评估数据集并不能改变现状。
根据 Marshall 和 Andreas 的说法,在解决根本问题上往前迈出一大步,将需要跨学科的工作:将机器学习领域的领导者,与人类学、政治学和社会学等领域的领导者聚集在一起。我们仍处于人工智能发展的萌芽阶段,现在采取行动仍为时不晚。