李飞飞是人工智能领域最重要的科学家之一。她最重要的贡献,是创建了数据库ImageNet,有人工智能领域的从业者评论,“没有ImageNet,就没有现在的深度学习革命”,李飞飞也因此被誉为AI教母。
她以女性细腻的笔调,讲述她作为女儿、科学家、移民和人道主义者眼中的世界,讲述了一个亚裔移民成长为美国三院院士、斯坦福大学终身教授的故事。以下是她新出版的自传《我看见的世界:李飞飞自传》的摘编,回顾了在AI寒冬的年代,她是怎样在一片反对声中找到她的北极星,创建人工智能领域早期最重要的数据库ImageNet的过程。
每当我与同事们讨论ImageNet的想法,我就越发感到孤独。虽然有西尔维奥的鼓励,但这么庞大的工程刚刚起步,就遭到了几乎所有人的一致反对,真是不祥之兆。我需要一群志同道合的伙伴,但现在似乎一个队友都找不到。最糟糕的是,不管我是否同意,我都无法否认他们批评的合理性。
毫无疑问,在2006年,算法是计算机视觉的中心,而数据这个话题并不十分吸引人。
数据生活在算法的阴影之下,仅仅被视为训练工具,就像成长中的孩子玩的玩具一样。我听到的劝阻之声已经多得够我用一辈子了,最后我终于遇到了第一位支持者。李凯教授是微处理器架构领域的领军人物。他相信我的方向是正确的。尽管我们都在计算机科学领域,但领域之间没有太多交集,所以他无法直接为我做出贡献,但他知道我们需要强大的计算能力才能启动。他毫不犹豫地为我们的研究捐赠了一套工作站。
不巧的是,他即将休长假,这缩短了我作为他的年轻同事的时间。不过,他的离开也不完全是坏事。他有一个极聪明的研究生叫邓嘉,他要给邓嘉找个新导师。邓嘉是一个完美的合作者,他年轻有为,工程天赋出众,对新的挑战充满渴望。于是,我们两人组成团队,开启了这个似乎需要成千上万甚至更多贡献者的项目。大多数同事对我的假设都不屑一顾。单从理论上讲,这一切确实说不通,但这是我人生中第一次感受到一种毋庸置疑的自信。
我们的目标是为每个物品类别搜集1000张不同的照片,直到涵盖全部2.2万个类别,也就是一共需要大约2000万张图片。但即便是这个数字,也只是最终成品数据库的情况。我们可能需要从数亿张照片,甚至10亿张照片中筛选,才能达到目标。邓嘉面露疑色,他说:“我从理论上能理解,但这个工作量也太大了,属于天文数字。”我回答说:“让我们一次只创造一个奇迹吧。”
做ImageNet已有一年时间,我感觉我们已经步入正轨。有了标注团队的工作,还有邓嘉在不断努力优化标注流程,我确信我们已经有所突破。邓嘉知道我的想法,他已经重新预估时间了。于是我兴奋地跑到他的办公桌前,询问进展如何。邓嘉说:“我们已经设法将19年的预计时间缩短到……大约18年。”
在经历了如此漫长的旅程之后,我无法接受我的直觉居然导致了错误的道路。我们突然失去了方向,仿佛头顶上是一片空荡荡的天空,在黑色波浪中漂泊。然而,一切都还没有结束。一个叫孙民的研究生突然出现在我面前,他能看出我在赶时间,但他看上去非常想要跟我聊聊。
孙民问道:“你听说过众包吗?”他解释说,在线平台可以将任务分配和结果收集过程自动化,有效组织远程的临时工作团队。最终,ImageNet之所以能够存在,要归功于互联网、数码相机和搜索引擎等众多技术的融合。亚马逊土耳其机器人改变了一切,它把我们起初的大学生标注员队伍变成了一个由数十人、数百人、数千人组成的国际团队。
随着我们获得的支持不断扩大,邓嘉给出的预计完成时间急剧缩短,先是15年,然后是10年、5年、2年,最后不到1年。2009年6月,ImageNet的初始版本终于完成了,收集了1500万张图片,涵盖了2.2万个不同类别。这些图片筛选自近10亿张候选图片,并由来自167个国家的4.8万多名全球贡献者进行了标注。
ImageNet不仅在规模和多样性上达到了我们多年来梦寐以求的水平,还保持了一致的精确度。每张图片都经过了手工标注,并在层次结构中进行了组织,经过了三重验证。我们的研究大胆且具有前瞻性,虽然并不完备,但能引发思考,其中很多在概念上也很简单。但直到ImageNet出现,一切才变得切实可行起来。
在2012年,ImageNet挑战赛的结果将在意大利佛罗伦萨宣布。
邓嘉打来电话,告诉我获胜的团队使用了非正统的算法,是一种神经网络算法。这个算法的识别准确率高达85%,比上一年的冠军高出10个百分点,创造了计算机视觉领域的世界纪录。冠军算法名为AlexNet,是卷积神经网络的一个实例。ImageNet已经教会了它们所需知道的一切,让它们在一次尝试中就达到了与人类能力相当的水平。历史刚被创造出来,而世界上只有少数人知道。