三十年前,辛顿对神经网络的观点与众不同,他说现在大家都接受了这些观点。人工智能领域的缺口:“必须有更多的概念上的突破,在规模上,还需要加大。”神经网络的弱点:“神经网络在处理多参数少量数据时,表现不错,但是这方面,人类似乎做得更好。”人脑如何工作:“大脑内部是参与神经活动的大向量。
”现代人工智能革命始于一场默默无闻的研究竞赛:2012年,即第三届图像网络竞赛(ImageNet competition),挑战团队需要建立一个能识别1000个物体的计算机视觉系统,这1000个物体中包括动物、景观和人类。在前两年,即便是最好的参赛团队,准确率都不超过75%。但是到了第三年,三位研究人员(一位教授和他的两个学生)突然打破了这个天花板,他们惊人地超出了10.8个百分点,赢得了比赛。
那个教授便是杰弗里·辛顿,他们使用的技术叫做深度学习。自20世纪80年代以来,辛顿一直致力于深度学习的研究工作,由于缺乏数据和计算能力,其有效性受到了限制,一直到2012年才取得成果。辛顿对这项技术的坚定信念最终带来了巨大的回报:在第四年的图像网比赛(ImageNet competition)中,几乎所有参赛队都在使用深度学习,并获得了神奇的准确性。很快,深度学习便被应用于图像识别之外的任务。
去年,由于他在这一领域的特殊贡献,辛顿与人工智能的先驱们Yann LeCun和Yoshua Bengio一起被授予图灵奖。10月20日,我在麻省理工学院技术评论的年会“Em Tech MIT会议”上与他谈到了这个领域的现状,以及下一步的方向。为了表达清楚,对以下内容进行了编辑和浓缩。你认为深度学习足以复制人类所有的智力,为什么这么确定?
我深信深度学习将无所不能,同时,我认为必须有相当多的概念上的突破。例如,2017年Ashish Vaswani等人,引入“transformer”这个概念,它利用向量来表示词义,这是一个概念性的突破,目前几乎用于所有的自然语言处理模型。我们需要更多类似的突破。如果有了这些突破,是否能够通过深度学习来模拟所有人类智力?的确如此,特别是如何获得神经活动的大向量来实现“推理”这样的突破。
但同时我们需要大幅度增加规模。人脑大约有100万亿个参数,即突触,是真正的巨大模型,像GPT-3,有1750亿个参数,但它比大脑小一千倍。GPT-3现在可以生成看似合理的文本,但与大脑相比,它依然太小。提到规模时,是指更大的神经网络,更多的数据,还是两者兼而有之?两者兼而有之,计算机科学中发生的事情和人们实际发生的事情之间存在某种差异。与获得的数据量相比,人们拥有更多的参数。
神经网络擅长处理有大量参数的少量数据,但人类在这方面却做得更好。很多业内人士认为,下一个大的挑战是常识,你同意吗?我同意,这是一件非常重要的事情,我认为运动控制也非常重要,而深层神经网络现在正变得越来越擅长这一点。特别是,谷歌最近的一些工作表明,可以完成精细的运动控制并与语言相结合,比如:打开一个抽屉,取出一个小木块,系统便可以用自然语言告诉你它在做什么。
像GPT-3这样的模型,它可以生成精彩的文本,很明显,它必须深入理解才能生成该文本,虽然我们对于它理解的程度还不太清楚。但是,如果有什么东西打开抽屉,拿出一个小木块并说:“我刚刚打开一个抽屉,拿出小木块一个”,也可以说它明白自己在做什么。人工智能领域一直把人脑作为其最大的灵感来源,不同的人工智能方法源于认知科学中的不同理论。
你是否相信大脑实际上建立起了外部世界的表征之后,再来理解它,或者这只是一种有用的思考方式?很久以前,在认知科学中,两个学派之间存在着一场争论:其中一个是由斯蒂芬·科斯林(Stephen Kosslyn)领导的,他认为,当大脑处理视觉图像时,你拥有的是一组正在移动的像素;另一学派则更符合传统的人工智能,“不,不,这是胡说八道,它是分层、结构性的描述。脑内处理的是一个符号结构。
”我认为他们都犯了同样的错误。科斯林认为我们处理的是像素,因为外部图像是由像素组成的,这是能为我们理解的一种表示;有人认为大脑处理的是符号,是因为我们也在用符号表示事物,这也是我们能理解的一种表示。我认为二者都不对,实际上大脑内部是多个神经活动的大向量。仍然有许多人认为符号表示是人工智能的方法之一。当然。
我有像赫克托·莱维斯克(Hector Levesque)这样的好朋友,他们相信符号表示的方法,并在这方面做了很棒的工作。我不同意他的观点,但符号表示方法是一件完全合理的事情。我猜测,符号只是存在于外部世界中,在大脑内部,用大向量进行内部操作。你认为你对人工智能未来最与众不同的观点是什么?好吧,我早先持有的与众不同的观点,五年后,它们却成为了主流。
早在20世纪80年代,我的大多数反向观点现在都被广泛接受了,现在大多数人都同意并接受了这些观点。所以,在某种程度上可以说,我的逆向观点已被削弱了。