深度学习未来会更好还是⾛下坡路?AI圈先驱们展开了设想。自2012年,以AlexNet为代表的深度学习技术突破开始,至今已有10年。10年后,如今已经成为图灵奖得主的Geoffrey Hinton、Yann LeCun,ImageNet挑战赛的主要发起人及推动者李⻜⻜如何看待过去十年的AI技术突破?又对接下来十年的技术发展有什么判断?
近日,海外媒体VentureBeat的一篇专访文章,让AI社区开始讨论起这些问题。在LeCun看来,过去十年最重要的成果包括自监督学习、ResNets、门-注意力-动态连接图、可微存储和置换等变模块,例如多头自注意力-Transformer。Hinton认为,AI领域的快速发展势头将继续加速。此前,他与其他一些AI领域知名人士对“深度学习已经碰壁”这一观点进行了反驳。
Hinton表示,“我们看到机器人领域出现了巨大的进步,灵活、敏捷且更顺从的机器人比人类更高效、温和地做事情。”
LeCun和李⻜⻜赞同Hinton的观点,即2012年基于ImageNet数据集的一系列开创性研究开启了计算机视觉尤其是深度学习领域的重大进步,将深度学习推向了主流,并引发了一股难以阻挡的发展势头。李⻜⻜对此表示,自2012年以来的深度学习变革是她做梦也想不到的。
不过,成功往往会招致批评。最近,很多观点纷纷指出了深度学习的局限性,认为它的成功仅限于很小的范围。这些观点认为深度学习无法实现其宣称的根本性突破,即最终帮助人类实现期望的通用人工智能,其中AI的推理能力真正地类似于人类。知名AI学者、Robust.AI创始人Gary Marcus在今年三月发表了一篇《深度学习撞墙了》的文章,他认为纯粹的端到端深度学习差不多走到尽头了,整个AI领域必须要寻找新出路。
之后,Hinton和LeCun都对他的观点发起了驳斥,由此更引发了圈内热议。
虽然批评的声音不断,但他们不能否认计算机视觉和语言等关键应用已经取得了巨大进展。成千上万的企业也认识到了深度学习的强大力量,并在推荐引擎、翻译软件、聊天机器人以及更多其他领域取得了显著的成果。2022年了,当我们回顾过往蓬勃发展的AI十年,我们能从深度学习的进展中学到什么呢?这一改变世界的变革性技术未来会更好还是走下坡路呢?Hinton、LeCun、李⻜⻜等人对此发表了自己的看法。
2012年,深度学习变革的开始一直以来,Hinton坚信深度学习革命的到来。1986年,Hinton等人的论文《Learning representations by back-propagating errors》提出了训练多层神经网络的反向传播算法,他便坚信这就是人工智能的未来。之后,1989年率先使用反向传播和卷积神经网络的LeCun对此表示赞同。
Hinton和LeCun以及其他人认为多层神经网络等深度学习架构可以应用于计算机视觉、语音识别、自然语言处理和机器翻译等领域,并生成媲美甚至超越人类专家的结果。与此同时,李⻜⻜也提出了自己深信不疑的假设,即只要算法正确,ImageNet数据集将成为推进计算机视觉和深度学习研究的关键。
到了2012年,Alex Krizhevsky、Ilya Sutskever和Hinton的论文《ImageNet Classification with Deep Convolutional Neural Networks》问世,使用ImageNet数据集创建了今天大家非常熟悉的AlexNet神经网络架构,并获得了当年的ImageNet竞赛冠军。
这个在当时具有开创性意义的架构在分类不同的图像方面比以往方法准确得多。可以这么说,这项研究在ImageNet数据集和更强大的GPU硬件的加持下,直接促成了下个十年的主要AI成功案例,比如Google Photos、Google Translate、Amazon Alexa、OpenAI DALL-E和DeepMind AlphaFold等。
在AlexNet推出的2012年,也有其他人和机构开始转向深度学习研究领域。Google X实验室构建了一个由16000个计算机处理器组成的神经网络,它具有10亿个连接,并逐渐能够识别类猫特征以及高度准确地识别YouTube上的猫视频。同时,Jeffrey Dean和Andrew Ng也在大规模图像识别领域进行突破性工作。
Dan Ciregan等人在CVPR 2012的论文显著提高了卷积神经网络在多个图像数据集上的SOTA性能。总而言之,到了2013年,“几乎所有的计算机视觉研究都转向了神经网络,”Hinton说,他从那时起就在Google Research和多伦多大学之间分配时间。
他补充说,从最近的2007年算起,几乎发生了一次人工智能的彻底改变,遥想当时,“在一次会议上发表两篇关于深度学习的论文甚至是不合适的”。
李⻜⻜表示,她深度参与了深度学习的突破——在2012年意大利佛罗伦萨会议上亲自宣布了ImageNet竞赛的获胜者——人们认识到那一刻的重要性也就不足为奇了。“ImageNet是一个始于2006年的愿景,当时几乎没有人支持,”李⻜⻜补充说,它后来“在事实上以如此具有历史意义的重大方式获得了回报。”自2012年以来,深度学习的发展速度惊人,深度也令人印象深刻。
“有一些障碍正在以令人难以置信的速度被清除,”LeCun说,他引用了自然语言理解、文本生成翻译和图像合成方面的进展。有些领域的进展甚至比预期中要快。对于Hinton来说,这种进展包括在机器翻译中使用神经网络,其在2014年取得了长足的进步。“我本认为那会是很多年,”他说。李⻜⻜也承认了计算机视觉的进步——比如DALL-E——“比我想象的要快。”
然而,并不是所有人都同意深度学习的进展令人瞩目。
2012年11月,Gary Marcus为《纽约客》写了一篇文章,他这么说:“套用一句古老的寓言,Hinton建造了一个更好的梯子,但更好的梯子并不一定能让你登上月球。”Marcus认为深度学习没有比十年前更接近“月球”,此处的月球是指通用人工智能或人类水平的人工智能。“当然有进步,但为了登上月球,你必须解决因果理解和自然语言理解及推理,”他说。“在这些事情上没有太大进展。
”Marcus认为将神经网络与符号AI(在深度学习兴起之前主导该领域的AI分支)相结合的混合模型是对抗神经网络极限的前进方向。不过Hinton和LeCun都驳斥过Marcus的批评。“深度学习没有撞墙——如果你看看最近的进展,那真是太棒了,”Hinton说,尽管他曾承认深度学习在它可以解决的问题范围内是有限的。LeCun补充说,“没有被撞到的墙”。
“我认为有一些障碍需要清除,而这些障碍的解决方案并不完全清楚,”他说。“但我根本没有看到进展放缓……进展正在加速。”
不过,Bender并不相信。“在某种程度上,他们只是在谈论根据ImageNet等基准提供的标签对图像进行分类的进展,看来2012年取得了一些质的突破。但如果他们在谈论比这更宏大的事情,那都是炒作。”人工智能偏见和道德问题迫在眉睫。
在其他方面,Bender也认为人工智能和深度学习领域已经走得太远了。“我确实认为,将非常大的数据集处理成可以生成合成文本和图像的系统的能力(计算能力 + 高效算法)已经让我们在几个方面脱轨了,”她说。比如,人们似乎陷入了一个循环:发现模型有偏见,并提议尝试去掉偏见,不过公认的结果是,目前并没有完全去偏见的数据集或模型。
此外,她表示希望看到该领域遵守真正的问责标准,无论是针对实际测试还是产品安全——“为此,我们需要广大公众了解以及如何看穿人工智能炒作的说法都处于危险之中,我们将需要有效的监管。”然而,LeCun指出,这些都是人们倾向于简化的复杂而重要的问题,而且很多人“有恶意的假设”。他坚持认为,大多数公司“实际上都想做正确的事”。
此外,他还抱怨了那些不参与人工智能技术和研究的人。
“这是一个完整的生态系统,但一些人在看台上射击,”他说,“基本上只是在吸引注意力。”关于深度学习的辩论肯定会继续,尽管辩论看起来很激烈,但李⻜⻜强调,这些是科学的全部内容。“科学不是真理,科学是寻求真理的旅程。这是发现和改进的旅程——所以辩论、批评、庆祝都是其中的一部分。”然而,一些辩论和批评让李⻜⻜觉得“有点做作”,无论是说AI都是错误的,还是说AGI即将来临,都属于极端情况。
“我认为这是一个更深入、更微妙、更细微、更多维度的科学辩论的相对普及版本。”当然,李⻜⻜指出,在过去十年中,人工智能的进步令人失望——而且并不总是与技术有关。
LeCun承认,一些人们投入大量资源的AI挑战尚未得到解决,例如自动驾驶。“我会说其他人低估了它的复杂性,”他说,并补充说他没有将自己归入这一类别。“我知道这很难,而且需要很长时间,”他声称。
“我不同意一些人的说法,他们说我们基本上已经弄清楚了……这只是让这些模型更大的问题。”事实上,LeCun最近发布了一份创建“自主机器智能”的蓝图,这也表明他认为当前的人工智能方法并不能达到人类水平的人工智能。但他也看到了深度学习未来的巨大潜力,表示自己最兴奋的是让机器更高效地学习,更像动物和人类。
LeCun表示,对他本人来说,最大的问题是动物学习的基本原则是什么,这也是他一直提倡自监督学习等事物的原因之一。“这一进展将使我们能够构建目前遥不可及的东西,比如可以在日常生活中助力智能系统,就好像它们是人类助手一样。这是我们将需要的东西,因为所有人都将戴上AR眼镜,我们将不得不与其互动。”Hinton同意深度学习正在取得更多进展。
除了机器人技术的进步,他还相信神经网络的计算基础设施将会有另一个突破,因为目前的设施只是用非常擅长做矩阵乘法器的加速器完成数字计算。他说,对于反向传播,需要将模拟信号转换为数字信号。“我们会找到在模拟硬件中工作的反向传播的替代方案,”他说。“我非常相信,从长远来看我们几乎所有的计算都将以模拟方式完成。”
李⻜⻜认为,对于深度学习的未来,最重要的是交流和教育。“在Stanford HAI,我们实际上花费了过多的精力来面对商业领袖、政府、政策制定者、媒体、记者以及整个社会,并创建专题讨论会、会议、研讨会、发布政策简报、行业简报。”对于如此新的技术,李⻜⻜比较担心的是缺乏背景知识无助于传达对这个时代的更细致和更深思熟虑的描述。
对于Hinton来说,深度学习在过去十年取得了超出想象的成功,但他也强调了,这种巨大的进步应该被归功于“计算机硬件的进步”。Marcus是批评者的角色,他认为深度学习虽然取得了一些进展,但之后看来这可能是一种不幸。“我认为2050年的人民会从2022年开始审视这些系统,并且会说:是的,它们很勇敢,但并没有真正发挥作用。
”但李⻜⻜希望过去十年将被铭记为“伟大的数字革命的开端”:“它让所有人而不仅仅是少数人或部分人类的生活和工作更好了。”她还补充道,作为一名科学家,“我永远不会认为今天的深度学习是人工智能探索的终结。”在社会层面,她说她希望将人工智能视为“一种令人难以置信的技术工具,它以最以人为本的方式被开发和使用——我们必须认识到这种工具的深远影响,并接受以人为本的思维框架以及设计和部署人工智能。
”最后,李⻜⻜表示:“我们如何被记住,取决于我们现在正在做什么。”