她如何用一个申不到经费、被称作学校之耻的项目，革新了整个研究领域、掀起了如今的AI浪潮？

斯坦福大学副教授、谷歌云首席科学家李飞飞，毕业于普林斯顿大学的华裔女科学家，在不被看好的情况下，带领团队创建了名为ImageNet的数据集和人工智能挑战赛。ImageNet大赛不但带动了人工智能（AI）的高速发展，更为Google、facebook等企业培养了一众优秀的AI专家，重新定义了人们研究人工智能的思考方式，推动了如今如火如荼的人工智能浪潮。

2006年，李飞飞开始酝酿一个大胆的想法。当时，她还是伊利诺伊大学香槟分校的一名刚刚上任的计算机科学教授，她发现自己在学术界和人工智能行业的同事正在苦心钻研同一件事情：无论数据如何，只要算法越高效，决策就会越准确。但是，李飞飞清楚地意识到这种做法的局限性——如果数据不能反映真实世界的情况，即使用最好的算法也不会得出理想的结果。她的解决办法是——建造一个更加真实的数据库。

李飞飞团队把他们的成果命名为ImageNet，并在2009年发表论文中将其公之于众。这个数据集当时还籍籍无名，它的宣传海报贴在迈阿密海滩的某个会议中心的小角落里，无人问津。但是，没过多久，ImageNet就迅速发展成一项年度竞赛，这项比赛通过识别数据集中的物体，选出识别错误率最低的算法为优胜者。许多人认为正是这一比赛推动了如今如火如荼的人工智能浪潮。

参与ImageNet挑战赛的团队遍布科技领域的各个角落：在2010年举办的第一场挑战赛的优胜者曾经出任百度、谷歌和华为等公司的高层领导；马修·泽勒（Matthew Zeiler）在2013年ImageNet挑战赛上赢得冠军，他在优胜算法的基础上创办Clarifai公司，目前获得高达4000万美元的风险投资；2014年，谷歌与两位牛津大学的研究人员共同赢得比赛冠军，随后，谷歌很快招募这两位获奖者加入它最近收购的DeepMind实验室。

目前，李飞飞身兼谷歌云首席科学家、斯坦福大学教授和斯坦福大学人工智能实验室主任等多重身份。今年7月26日，她最后一次在计算机视觉与模式识别会议（Computer Vision and Pattern Recognition, CVPR）上对ImageNet挑战赛进行回顾与总结——2017年是该竞赛举办的最后一年。

短短8年时间，冠军算法识别物体的准确率从71.8%上升到现在的97.3%，精确度已经远远超过人类。这无疑证明了训练数据越庞大，越有助于算法做出更好的决策。

尽管挑战赛结束了，但是它在行业中造成的影响依旧没有褪去。自2009年以来，计算机视觉技术、神经语言处理和语音识别等人工智能的分支领域诞生了数十个新的研究数据集。“在ImageNet的影响下，固有的思维模式开始发生转变——当人们的重心都放在如何做出更好的算法模型的时候，我们转而研究如何改善数据。”李飞飞说道，“数据重新定义了我们对模型的思考方式。”

李飞飞最初的想法是以每小时10美元的价格聘用本科生，手动寻找合适的图片添加进数据集。但是，随手一算就会发现，按本科生收集图片的速度，要完成ImageNet项目大约需要90年。随后，她解散了本科生团队，李飞飞和她的团队重新回到了起点。他们考虑，是否可以利用计算机视觉算法从网络中筛选图片，他们只需负责组织和管理这些图片？

但是，经过几个月反复修改算法后，得出了一个结论：这个方法依旧不可行——未来使用数据集的算法同样会受到制作数据集的识别算法的影响，因为其所能达到的识别准确度不会高于制作数据集时所具备的识别能力。

人工筛选和添加图片浪费时间，使用识别算法又存在弊病，屋漏偏逢连夜雨，李飞飞的团队还资金短缺：李飞飞说，虽然她多次申请资金，但是ImageNet项目未能获得任何联邦政府的拨款，甚至有人批评道：这个课题是普林斯顿之耻，这个项目的唯一优势是，申请人是个女的。最终，李飞飞在与一个研究生闲聊时突然发现项目的转机。

当时，那位研究生问李飞飞，有没有听说过亚马逊旗下的“土耳其机器人（Mechanical Turk）”——它是一个众包网络平台，“请求者”在该平台上以低廉的薪资召集世界各地的网络用户完成各种的琐碎工作。“他给我看了这个网站，我可以告诉你，就在那一天，我确认ImageNet肯定能成功。”李飞飞说，“我们突然之间找到扩大数据集规模的方法，如果单纯依靠本科生人工找图片，我们根本没办法完成这个项目。”

亚马逊“土耳其机器人”图片分类的界面使用“土耳其机器人”并不意味着一劳永逸，平台本身具有的许多问题都需要交由李飞飞的博士生邓嘉和奥尔加·鲁萨科夫斯基（Olga Russakovsky）来解决。例如，每张图片需要经过多少人过目？要确认图片显示的是猫咪或许只需2个人，但是要辨别出图片上出现的是一只微型哈士奇可能需要经过10次验证；如果参与该平台的“工作者”偷懒，试图操纵或者欺骗系统又该如何发现错误？

李飞飞的团队最终针对参与者的行为开发了一批统计模型，确保数据集中只包含正确的图片。虽然他们通过“土耳其机器人”提供的服务收集数据，但是数据集工程浩大，历经两年的辛苦工作才得以完成。ImageNet中包含320万张标记过的图片，共分成5247个种类，归类到12个子目录树下，比如哺乳动物、汽车和家具等等。

2009年，李飞飞和他的团队发表了关于ImageNet的论文，其中介绍了数据集这一构想——但他们只能低调地宣传。李飞飞回忆道，国际计算机视觉与模式识别会议（CVPR）作为计算机视觉研究领域的顶尖会议，只允许他们发一张海报，不接受任何演讲宣传。于是，他们免费发放印有ImageNet牌子的钢笔来吸引注意力。当时，人们很怀疑训练更多的样本就能改善算法这样一个简单的道理。

邓嘉谈到了当时大家对ImageNet的质疑态度：“当时有人说，‘如果你连一个物体都不能准确识别，为什么还尝试做几千个、几万个物体？’”如果数据是新时代的石油，那么在2009年，它还只是原始的恐龙骨头。

同年，在京都举办的一个计算机视觉大会上，与会的研究人员之一的亚历山大·伯格（Alex Berg）在会场叫住李飞飞，他提议ImageNet挑战赛应该不仅要求算法判定物体是否存在，还需拓展规则，要求选手用算法定位目标物体在图像中的位置。李飞飞在交流之后表示：不如你加入我的团队吧。伯格、邓嘉和李飞飞三人基于这些数据集一共撰写了五篇论文，用来解释算法识别大规模数据的过程。

其中第一篇论文成了为算法如何识别成千上万的图片的比赛标准，也就是ImageNet挑战赛规则的雏形。李飞飞在第一篇论文中写道：“我们意识到，如果要普及这个数据集，我们仍需开展进一步的研究。”随后，李飞飞奔赴欧洲与著名的国际计算机视觉算法竞赛（PASCAL VOC）的组委会交流，组委会表示愿意同她合作联合比赛，共同使用ImageNet和PASCAL的数据集。

在当时，PASCAL数据集具有一定影响力，但它只包含20个物体类别，而ImageNet有1000个类别，明显比它更加庞大。

随着国际计算机视觉算法竞赛在2011年顺利开幕，到了2012年，该数据集迅速成为一项基准，用于衡量图像分类算法在识别当时最复杂的数据集时的表现。但是，除了比赛成绩以外，研究人员开始注意到另一个有趣的结果——参赛的算法经过ImageNet数据集训练后能更准确地识别图像。

“我们发现用ImageNet训练过的算法可以作为其他识别任务的初始模型，这真是意外之喜，也就是说，这些原本用于图像识别的算法经过微调之后就能完成其他任务，”伯格说道，“这不仅是神经网络的巨大突破，还是模式识别的一大进步。”

2012年，在第三届ImageNet挑战赛上发生了一件大事——如果将如今风靡全球的人工智能浪潮的归功于一件大事，那么这份荣耀应当属于当年挑战赛宣布冠军成绩的那一刻。

来自多伦多大学的三位挑战者，杰弗里·辛顿（Geoffrey Hinton），伊利亚·施克斯克（Ilya Sutskever）和亚历克斯·克里杰夫斯基（Alex Krizhevsky），共同创造了一个名为AlexNet深度卷积神经网络结构，以压倒性的优势一举夺得冠军——他们将算法准确率提高了10.8个百分点，足足比第二名高了41%。直到今天AlexNet仍被用于研究。

随着时间的推移，ImageNet大赛中参赛算法的错误率越来越低。

对杰弗里·辛顿和他的两位学生而言，ImageNet数据集出现的时间恰到好处。自1980年辛顿开始研究人工神经网络以来，他一直苦于没有良好的研究平台。与他的苦境相比，同在人工智能领域的雅恩·乐昆（Yann LeCun）等人作为贝尔实验室的研究员，将开发出来的卷积神经网络技术应用在ATM机的支票读取器上。

就在几年前，显卡制造商英伟达（Nvidia）的研究人员已经知道如何使这些神经网络模型加快数据处理，但是经过优化的算法速度依旧无法超越其他技术。在使用ImageNet数据集之前，辛顿和他的团队已经证明其研发的神经网络可以基于更小的数据集开展笔迹识别等小型任务，但是辛顿的团队需要更多的数据来实现神经网络在现实世界的应用。

施克斯克说道：“如果你的算法在ImageNet上的表现得很好，那么图像识别对于你来说明显不成问题。”现在，卷积神经网络的应用十分广泛，基本上任何涉及识别图像或视频中物体的应用都采用这种神经网络——乐昆作为Facebook的人工智能实验室主任用它来进行照片分类；自动驾驶汽车用它辨别障碍物。

卷积神经网络能通过在每层抽象概念上进行上千次甚至百万次小数量级的计算，按照从底层往上层递增的顺序寻找像素之间的联系，以此来辨别图片中包含什么物体。每新输入一个图像，神经网络会把图像的模式与已经分类出来的模式进行匹配。辛顿多次向他的同事表示自己团队的研究十分重要，但是，现在他终于有证据证明神经网络计算优于其它最先进的技术。

“更令人惊奇的是，人们可以通过深度学习不断优化神经网络技术，”施克斯克提及目前人工智能领域最受欢迎的技术时，表示神经网络的层级结构让它可以识别更加复杂的模式：“深度学习是改进算法最行之有效的方法。”2012年，ImageNet的比赛结果让很多研究人员争相复制这种深度学习技术。马修·泽勒（Matthew Zeiler）曾是辛顿的学生，目前在纽约大学攻读博士学位。

他在知道ImageNet的比赛结果不久后，通过与多伦多大学的关系，获得了ImageNet的论文和代码的早期访问权限。随后，泽勒联手纽约大学研究神经网络的教授罗伯·弗格斯（Rob Fergus），开始为2013年的挑战赛研究参赛算法。泽勒甚至在两人组队的前几周，为了更加专注于比赛，辞去谷歌的实习工作。天道酬勤，他们获得了当年挑战赛的冠军。

李飞飞回忆道，到2014年，所有获得高分的参赛团队都采用了深度神经网络。

“2012年的ImageNet竞赛的确促成了现在AI繁荣发展的局面，”泽勒在接受邮件采访时说道，“在2012年挑战赛开始不久前，有一些语音识别领域算法表现出很高的准确性，但是它们与ImageNet在2012年以及之后5年所达到的辉煌相比，其知名度远不如ImageNet。

”如今，许多人认为ImageNet解决了诸多难题，比如在它的帮助下，图像识别错误率降至低于2%的程度。但是，这仅仅指分类问题或者图像识别问题的进步，并不代表算法了解这些物体的特性——物体的来源、用途、制造者或者物体如何与周围环境进行交互。简单来说，算法不能理解它识别的物体，这在语音识别中，甚至在自然语言处理中也同理。

所以，目前，人工智能领域的研究人员的下一个目标是让算法理解在特性环境下的物体，至于他们通过什么途径达成这一目标，仍旧有许多谜题有待解开。

虽然竞赛已经落幕，但是ImageNet数据集造成的影响却长久不衰——数据集经多年的更新后拥有的图片数量已经达到1300万之多。

伯格表示自己的团队曾经在2014年时试图去掉挑战赛的某项规则，但是遭到来自谷歌和Facebook等公司的强烈反对，这些大公司通常偏爱中心化的基准，因为这样一来，科技行业就可以指着一个数据说：“你看，我们做的算法远超这个指标，就是这么完美。

”由于深度学习技术已经证明优化算法需要如ImageNet一样大量的数据，自2010年以来有许多企业和学术机构，包括谷歌，微软、Facebook和加拿大高等研究所等等，开始高调地宣传他们自主研发的数据集。

数据集变得越来越高端：创业公司和风投在各种媒体平台上发帖子，写文章宣传自己刚推出的数据集，以及他们的算法在ImageNet上的表现是多么的好；谷歌，Facebook和亚马逊等互联网公司开始利用每天出现在其平台上的出现的数以百万的图片、语音片段和文字段落，推出自己的内部数据集。

与此同时，每个创业公司也在努力为各自的数据集收集数据：TwentyBN是一个专注于视讯认知的人工智能公司，它使用“亚马逊土耳其机器人”平台收集影像片段，要求参与者在录像中表演的简单手势和动作，该公司已经面向学术界推出两款免费使用的数据集，每个数据集包含的视频数量超过10万段。

李飞飞说：“各种各样的数据集如雨后春笋般纷纷涌现，涉足的领域从视频、语音到游戏不一而足。

”人们往往认为数据库免费是理所应当的事情，其实数据集的收集、整理和审查工作相当耗时。当然，公开和免费是ImageNet的初衷之一，也正是因为如此，它和它的数据集可以经受住长期考验。2016年，谷歌发布了Open Image数据集，其中囊括了900万张图片，分为6000多种类别。最近，谷歌升级改造了数据集，标明了图像中每个物体的位置，这也是受2014年ImageNet挑战赛的最重要的一项规则的影响。

DeepMind实验室在被谷歌收购之后，迅速转变成谷歌的核心产业，最近DeepMind也推出自己的数据集，其中里面包含了很多人各种各样的动作。“ImageNet对人工智能领域的改变之一就是它让人们开始真正意识到数据在研究中的地位，哪怕创作数据集是件吃力不讨好的研究，”李飞飞说：“数据毫无疑问是优化算法的重要一环，跟算法本身一样重要。”