华裔科学家李飞飞：她看见的世界和她改变的世界

李飞飞是人工智能领域最重要的科学家之一。她最重要的贡献，是创建了数据库ImageNet，有人工智能领域的从业者评论，“没有ImageNet，就没有现在的深度学习革命”，李飞飞也因此被誉为AI教母。她以女性细腻的笔调，讲述她作为女儿、科学家、移民和人道主义者眼中的世界，讲述了一个亚裔移民成长为美国三院院士、斯坦福大学终身教授的故事。

以下是她新出版的自传《我看见的世界：李飞飞自传》的摘编，回顾了在AI寒冬的年代，她是怎样在一片反对声中找到她的北极星，创建人工智能领域早期最重要的数据库ImageNet的过程。

每当我与同事们讨论ImageNet的想法，我就越发感到孤独。虽然有西尔维奥的鼓励，但这么庞大的工程刚刚起步，就遭到了几乎所有人的一致反对，真是不祥之兆。我需要一群志同道合的伙伴，但现在似乎一个队友都找不到。

最糟糕的是，不管我是否同意，我都无法否认他们批评的合理性。毫无疑问，在2006年，算法是计算机视觉的中心，而数据这个话题并不十分吸引人。数据生活在算法的阴影之下，仅仅被视为训练工具，就像成长中的孩子玩的玩具一样。

我听到的劝阻之声已经多得够我用一辈子了（可能下辈子也够了），最后我终于遇到了第一位支持者。李凯教授是微处理器架构领域的领军人物。他相信我的方向是正确的。

尽管我们都在计算机科学领域，但领域之间没有太多交集，所以他无法直接为我做出贡献，但他知道我们需要强大的计算能力才能启动。他毫不犹豫地为我们的研究捐赠了一套工作站。这正是我所需要的支持。不巧的是，他即将休长假，这缩短了我作为他的年轻同事的时间。不过，他的离开也不完全是坏事。他有一个极聪明的一年级研究生叫邓嘉，他要给邓嘉找个新导师。

邓嘉是一个完美的合作伙伴，他年轻有为，工程天赋出众，对新的挑战充满渴望。

于是，我们两人组成团队，开启了这个似乎需要成千上万甚至更多贡献者的项目。大多数同事对我的假设都不屑一顾。单从理论上讲，这一切确实说不通，但这是我人生中第一次感受到一种毋庸置疑的自信。无论需要多长时间，我确信我们正在做一件大事，一件也许具有历史意义的大事。

我们的目标是为每个物品类别搜集1000张不同的照片，直到涵盖全部2.2万个类别，也就是一共需要大约2000万张图片。但即便是这个数字，也只是最终成品数据库的情况。我们可能需要从数亿张照片，甚至10亿张照片中筛选，才能达到目标。邓嘉面露疑色。“我从理论上能理解，但这个工作量也太大了，属于天文数字，可不是谷歌搜索几次就能完成的。”他说的当然没错，但是我们需要拥抱现实，而不是逃避现实。

我们的目标是捕捉完整的现实世界。

“就算我们想办法组织好了图片，这些图像本身也没有任何作用，对吧？它们需要先标注，才能用于模型训练，而且每一个标签都必须是准确的。”邓嘉暂停了一下，好像才感受到自己说的话有多么重要，“听上去又是一个浩大的工程。”

“是啊，是啊。”我回答说，“让我们一次只创造一个奇迹吧。”

“完工时间大概是19年，我不能等那么久才拿到博士学位。”我和邓嘉在实验室一角，看着一排本科生不断地点击鼠标、敲击键盘。本周早些时候，我们发出了邮件，招募愿意帮忙从网上下载和标注图片的本科生，工作时间灵活，每小时10美元。我们很快就收到了回复。

不管怎样，显然我们需要更多的大学生。当年做Caltech101的时候，招募的大学生勉强够用，而那次的工作量不过是ImageNet的零头。看来，我们必须采取新的策略了。做ImageNet已有一年时间，我感觉我们已经步入正轨。有了标注团队的工作，还有邓嘉在不断努力优化标注流程，我确信我们已经有所突破。

在2009年，我决定再次前往西部，邓嘉和我的大多数学生也跟随我转学。斯坦福大学成了我们新的学术家园。

2009年6月，ImageNet的初始版本终于完成了，这在很大程度上得益于斯坦福大学提供的新研究资金。尽管我们一路上遇到了许多挑战，但我们最终成功达成了目标：收集了1500万张图片，涵盖了2.2万个不同类别。这些图片筛选自近10亿张候选图片，并由来自167个国家的4.8万多名全球贡献者进行了标注。

ImageNet不仅在规模和多样性上达到了我们多年来梦寐以求的水平，还保持了一致的精确度：每张图片都经过了手工标注，并在层次结构中进行了组织，经过了三重验证。

在经过140万轮标注后，最后几张图片与其说是一场磨炼，不如说是一场加冕礼。网络的焦点穿过像素，随着熟悉模式的识别而亮起，并传递到下一层，与其他模式相结合，形成越来越强大的感知。算法的反应不再是随机的，大多数也不再是错误的。土狼。正确。台灯。正确。显然，这是硬件、软件和数据的神奇组合，比计算机视觉领域所打造的任何成果都更接近于捕捉到塑造了人类这种哺乳动物思维的进化精神。

在2012年8月，ImageNet挑战赛的结果将在意大利佛罗伦萨宣布。邓嘉打来电话，告诉我获胜的团队使用了非正统的算法，是一种神经网络算法。这个算法的识别准确率高达85%，比上一年的冠军高出10个百分点，创造了计算机视觉领域的世界纪录。冠军算法名为AlexNet，是卷积神经网络的一个实例。它的出现标志着计算机视觉领域的新跨越，利用大型数据集充分彰显了潜力。

我们要花上几个月的时间，才能真正理解在那个会议室里看到的一切，但即使在那一刻，我们也清楚地知道我们正在见证非凡之物。没有错误，没有疏忽，也没有文书方面的失误。神经网络起死回生，比以往任何时候都更庞大、更复杂、更强大。ImageNet已经教会了它们所需知道的一切，让它们在一次尝试中就达到了与人类能力相当的水平。