著名数据集CoNLL-2003的偏误正在影响20年内的算法

每到夜晚，Fien de Meulder 就会坐在她的 Linux 电脑前，从路透社的新闻文章中摘取的句子标记人名、地名和组织名称。De Meulder 和她的同事 Erik Tjong Kim Sang 都在安特卫普大学从事语言技术工作。即便在 2003 年，每周 60 小时的工作时间在学术界也是常事。她靠喝可乐保持清醒。为了完成一个开源数据集的开发，这些辛苦都是值得的。

这个开源数据集将用作一类被称为命名实体识别（NER）的任务。当时，这类任务刚刚开始蓬勃发展，它旨在帮助机器学习模型对文本中的实体进行识别和分类，是自然语言模型的基本组成部分之一。没有 NER 作为基础，在线搜索、信息提取和情感分析等应用将举步维艰。一般而言，实体包括人员、地点和组织等，这些概念将是 AI 能够收集文本含义的关键。

举个例子，在这些类数据集上受过训练的系统，可以分析包括名称 “Mary Barra”、“ General Motors” 和 “ Detroit” 三个实体的一段文本，可能推断出该人（Mary Barra）与公司（General Motors）有关联，并且在指定的地点（Detroit）居住或工作。

Tjong Kim Sang 和 de Meulder 所进行的这项工作，重点关注 4 个实体：PER（人员），LOC（位置），ORG（组织）和 MISC（其他，包括所有其他类型的实体），选取的新闻文章则包括西班牙语、荷兰语、英语和德语四种不同的语言。遗憾的是，2003 年 Tjong Kim Sang 和 de Meulder 在进行这项工作时，没有考虑太多的偏见问题。

数据实战派利用真实数据，提升分析能力，共建有趣的大数据社区。而他们那时创建的 CoNLL-2003 数据集，在去年被发现存在显著偏见。此时，CoNLL-2003 已经成为构建 NLP 系统最广泛使用的开源数据集之一。偏差所在在 CoNLL-2003 问世已经 17 年后，一家名为 Scale AI 的公司，于一次试验中对 CoNLL-2003 数据集存在的偏见进行量化。

Scale AI 通过使用自己的数据标注流水线发现，CoNLL-2003 标注的大约 2 万个新闻句子中，男性名字比女性名字多得多提到 “男性” 名字的次数几乎是其的五倍。CoNLL-2003 中的 “女性” 名称。只有不到 2％的名字被视为 “性别不明”。这会造成什么后果？

当 Scale AI 在另一组单独的名字上测试使用 CoNLL-2003 训练的模型时，这个模型错过一个新出现的女性名字的可能性，比一个新出现的男性名字高 5%。这已经是显著差异。Scale AI 在美国人口普查数据上测试了该算法，根据报告，它在识别女性名字上的表现明显更差了。

所有这些都意味着，在 CoNNL-2003 上训练的模型，不仅在识别数据集中包含的当前名称时会有不足，这种不足很可能会随着时间的推移表现得更糟。在 CoNNL-2003 上训练的模型已经在处理女性姓名上遇到了麻烦。而在识别少数族裔、移民、年轻人以及任何其他 20 年前新闻中鲜少报道的群体的姓名上，它还可能会更差。

“如果无法识别人们的名字，那么对于真正重要的各种自动化系统来说，这些人将变得不可见，” 麻省理工学院助理教授、麻省理工学院语言与智能组成员 Jacob Andreas 博士说。截止 2020 年，CoNLL-2003 在研究文献中被引用了 2500 多次。

如果检索与 CoNLL-2003 相关的新闻报道或者研究文献，你会发现，业内在提到 CoNLL-2003 时，使用了将 CoNLL-2003 视作权威的描述：Benchmark、Grading system、Yardstick、重要基准、衡量标准…… 近二十年来，它已经被用作无数算法的构建模块或磨砺工具，成为构建可识别文本中命名实体的算法的标准。

如果一个算法在 CoNLL-2003 上运行后表现良好，可以认为它对实体的分类方式与人类对实体的分类方式非常吻合，那么，它就会被视作是成功的，是该领域的开创性工作。但当我们发现偏差的存在，实际上，顺利通过这样的测试将变得令人担忧。因为这意味着，模型的建立强化了数据集最初的一些偏见。当新的模型比旧的模型更出色，那么它很可能与数据集的初始偏见更加一致。

雪上加霜的是，我们将很难确定 CoNLL-2003 被用于哪些具体的商业算法、平台和工具。“公司往往对他们具体使用什么训练数据来构建模型讳莫如深，”Andreas 博士说。但该数据集被广泛认为是同类数据中最受欢迎的数据集之一，经常被用于构建金融服务和法律等行业的通用系统。直到今天，CoNLL-2003 仍被作为一种评估工具，用来验证一些最常用的语言系统。

例如，将人类的语言单词转化为 AI 能够理解的意义和语境的 “词嵌入” 模型，包括 BERT、ELMo 和 GloVe 等基础模型。一切受 CoNLL-2003 影响的模型，反过来也会产生了自己的连锁反应。例如，GloVe 在 Google Scholar 上已被引用了 15000 多次。

涟漪效应这背后引申出来的问题，甚至已经与 CoNLL-2003 无关，而是更广泛存在于机器学习系统中的各类偏差。《新科学家》曾经报道过麻省理工学院媒体实验室研究生 Joy Buolamwini 的个人经历。她曾注意到，商业化的人脸识别软件可以识别浅色皮肤的同学，却无法顺利 “看到” 她的脸。而当她进一步深究时，她发现人脸识别软件和其他 AI 系统中的种族和性别歧视偏见几乎并不罕见。

类似的，亚马逊曾在 2014 年开发了一个实验性的内部工具，用于筛选技术岗位的求职申请。虽然它的设计是中立的，但该工具被 “喂入” 了他们现有软件工程师的数据。而这些数据的主体绝大多数是男性。性别失衡的情况被该工具发现并继承下来，申请技术职位的女性并没有得到公平的对待。与此类似，亚马逊在 2014 年开发了一个实验性的内部工具，用于筛选技术岗位的求职申请。

虽然它的设计是中立的，但该工具被输入了他们现有软件工程师的数据。绝大多数是男性，性别失衡的情况被该工具发现并继承下来，进而歧视申请技术职位的女性。需要说明的是，该工具从未用于评估实际的求职者，它最终被终止。尽管亚马逊的团队尝试过努力修复出现的偏见，包括手动调整，但该公司得出的结论是，无法保证它不会设计出其他具有歧视性的候选人排序方式。

想象一下，一把微微弯曲的尺子，被视为测量的通用标准，用它去丈量万物，偏差会在一次次的传递中放大和延续。数据集作为模型的上游存在，它所产生的涟漪效应是不可估量的，其偏差的影响也是如此。具有各种偏差的数据集被用到训练 ML 系统上，这些 ML 系统再部署到现实世界中，意料之外的影响将只增不减。

鉴于这种效应的存在，Scale AI 的创始人兼 CEO Alexandr Wang 将机器学习描述为某种程度上的 “纸牌屋”，新生研究在彼此之上迅速建立起来的，却不是每个人都会思考这个链条是否基于坚实的底牌。再回到 Scale AI 对 CoNLL-2003 进行偏差的实验上。他们对这种偏差的存在感兴趣，也是由其商业模式推动。

这是一家为客户提供数据标注 pipeline 来构建和管理数据集的数据标注公司，成立于 2016 年，其公开客户包括 Airbnb、Pinterest、OpenAI、Lyft、丰田、DoorDash 等。

确认 CoNLL-2003 存在偏差之后，Scale AI 在 CoNLL-2003 的初始数据中添加了 400 多个额外的 “女性” 名字，创建了一个新的开源数据集，名为 CoNLL-Balanced。Scale AI 的初步结果表明，新算法在两类名字上的表现都相当不错。但这仍然可能无法解决根本问题。在大量的行业会议上，已经有很多专家们明确表示，增加数据集的代表性只是其中的一个 “创可贴”。

从各个层面来说，科技界希望 “为社会问题找到一个系统性的技术解决方案”，数据科学家 Brandeis Marshall 说。当涉及到女性、BIPOC（有色人种）和 LGBTQ + 个体的权益时，还有很多工作要做。单单重新评估数据集并不能改变现状。

根据 Marshall 和 Andreas 的说法，在解决根本问题上往前迈出一大步，将需要跨学科的工作：将机器学习领域的领导者，与人类学、政治学和社会学等领域的领导者聚集在一起。我们仍处于人工智能发展的萌芽阶段，现在采取行动仍为时不晚。