Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点

作者: 钱磊

来源: ZDNet

发布日期: 2022-04-11 16:20:00

Yann LeCun在其最新访谈中探讨了能量模型在自主人工智能系统中的应用,认为能量模型开辟了通往抽象预测的道路,为能够进行规划的人工智能提供了统一世界模型。他还讨论了自监督学习与无监督学习的关系,以及能量模型与量子电动力学的相似性。

Yann LeCun认为,「能量模型」开辟了通往「抽象预测」的道路,为能够进行规划的人工智能提供了「统一世界模型」。什么是能量模型?Yoshua Bengio、Ian Goodfellow和Aaron Courville等人在2019年出版的《深度学习》(又称「花书」)一书中将「概率函数」定义为「描述了一个或一组随机变量呈现其每种可能状态的可能性大小」,而能量模型则简化了两个变量之间的一致性。

能量模型借用统计物理学的概念,假设两个变量之间的能量在它们不相容的情况下上升,在一致的情况下则下降。这可以消除将概率分布“标准化”过程中出现的复杂性。在机器学习领域,能量模型是一个「老」概念,至少可以追溯到20世纪80年代。但近年来,越来越多成果使能量模型变得更可行。

据ZDNet报道,近年来随着对能量模型的思考不断深入,LeCun围绕该概念做了几次演讲,包括2019年在普林斯顿高等研究院的一次演讲。最近,LeCun在两篇论文中描述了能量模型的研究现状:一篇是LeCun与Facebook AI实验室(FAIR)的同事于去年夏天共同发表的“Barlow Twins”;另一篇则是他与FAIR、Inria合作发表于今年1月的“VICReg”。

正如LeCun在采访中所说,他目前的研究与量子电动力学有一些有趣的相似之处,尽管这不是他的重点。他关注的重点是人工智能系统的预测可以进步到何种程度。LeCun自己开发了一种叫做“联合嵌入模型(joint embedding model)”的现代能量模型,他相信这能为深度学习系统带来“巨大的优势”,这个优势就是“抽象表示空间中的预测”。LeCun认为,这种模型为“预测世界的抽象表征”开辟了道路。

抽象预测能力是深度学习系统广义上的发展前景,当系统处于推断模式时,这种抽象预测机器的“堆栈”可以分层生成规划场景。这种模型可能是实现LeCun心目中的统一“世界模型”的重要工具,而这种统一的“世界模型”将推进实现他心目中的自主人工智能,自主人工智能能够通过对场景之间的相关性和图像、语音和其他形式输入数据的相关性建模来进行规划。

自监督学习 vs. 无监督学习:Yann LeCun认为自监督学习是一种特殊的无监督学习方式。无监督学习这个术语有点复杂,在机器学习的背景下不是很好定义。当提到无监督学习时,人们会想到聚类算法和PCA(主成分分析),以及各种可视化方法。而自监督学习基本上是去尝试使用对于非监督学习来说相当于监督学习的方法:也就是使用了监督学习方法,但训练的神经网络没有人为提供的标签。

比如说我们可以取一段视频,给机器看一段视频片段,然后让它预测接下来会发生什么。或者也可以给机器看两段视频,然后问它这个视频是另一个视频的后续吗?我们要做的不是让机器预测后续,而是让它告诉你这两个场景是否相容。或者向机器展示同一个物体的两个不同的视图,然后问它,这两个东西是同一个物体吗?在你给系统的所有数据基本上都是输入数据的情况下,自监督学习本质上没有真人的监督。

能量模型是未来的方向吗?

Yann LeCun认为RLVEB是生成模型,如果你想把它应用到视频预测之类的任务上,你给它一段视频,可以让它预测下一段视频。在过去的几年里,他也改变了他的想法。现在,他最喜欢的模型不是从X预测Y的生成模型,而是他所谓的联合嵌入模型。他们取X,通过一个编码器运行它(如果你想的话,也可以用一个神经网络来运行);取Y,并通过另一个编码器运行它;然后预测就会发生在这个抽象的表示空间中。

这就是一个巨大的优势。为什么他改变了主意?他改变主意是因为我们之前不知道该怎么做。现在我们有一些方法可以派上用场。这些方法是在过去的两年中出现的。他正在推动的实际上有两个方法:一个叫VIC-REG,另一个叫Barlow Twins。

能量模型与其他方法之间的千丝万缕:Yann LeCun认为能量模型的方式听起来有点像量子电动力学的内容,比如Dirac-Feynman路径积分或者波函数。

这并不是比喻,而且两者其实是有些不同的,并非完全一致。比如你有一个潜变量,这个潜变量可以取很多不同的值,通常你要做的就是遍历这个潜变量所有可能的值。这可能有些不切实际。所以你可以从某个分布中对潜变量抽样,然后计算可能结果的集合。但是,实际上你最终要计算的是一个代价函数,这个代价函数给出了一个你对潜变量的可能值求平均的期望值。这看起来很像一个路径积分。

路径积分实际上就是计算多条路径的能量之和,至少在传统意义上是如此。在量子方法中,你不是在把概率或分数相加,而是在把复数相加,而复数可以互相抵消。虽然我们一直在考虑这样的事情(至少他一直在思考同样的东西),但我们的研究中没有这样的内容。这个在上下文中没有用到,但是潜变量的边际化和路径/轨迹的总和是非常相似的。

UUID: 9f1a5458-4c60-4236-9937-9bdc3e1504a8

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2022年/学术头条_2022-04-11_Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点.txt

是否为广告: 否

处理费用: 0.0078 元