研究揭秘:神经网络越大、表现越好的“神秘力量”

来源: 数据实战派

发布日期: 2022-02-27 10:05:14

本文探讨了神经网络规模与表现之间的关系,特别是过度参数化对神经网络性能的影响,以及其在提高鲁棒性和泛化能力方面的作用。

对人类来说,对生拇指的出现是一个重大的时刻。那么,如果在进化过程中大自然又赐给我们额外的拇指,人类使用工具的能力是否会更强呢?情况可能不会有太大改观,毕竟一只手有一个拇指就够了。但对神经网络而言,并非如此。神经网络已经成为执行类人任务的领先AI系统。随着其规模越来越大,理解力也随之增强。这无疑对研究者来说,惊喜与挑战并存。

基本的数学结果表明,网络差不多大就可以了,但现代神经网络的规模往往远超出预测需求——这种情况被称为过度参数化。一般来说,只要参数的数量大于要满足的方程的数量,就可以使用参数化模型类进行数据插值。而深度学习中一个令人费解的现象是,模型的训练参数比这个经典理论所暗示的要多得多。具体而言,求解n个方程一般只需要n个未知数。

然而,革命性的深度学习方法围绕着高度参数化的模型,从n个训练数据点学习的参数远远超过n个。NeurIPS会议上发表的一篇题为“A Universal Law of Robustness via Isoperimetry”论文中,微软研究院的Sébastien Bubeck和斯坦福大学的Mark Sellke对规模扩展成功背后的奥秘提供了新的解释:找到一个拟合d维数据的平滑函数至少需要nd参数。

换句话说,d因子的过度参数化对于平滑插值是必要的,这也恰好表明,深度学习中使用的大尺寸模型是有用的,而非框架的弱点。而且,神经网络必须比传统的预期要大得多,才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了普适性的见解。神经网络的一个常见任务是识别图像中的物体。为了创建这样的网络,首先,研究人员需要提供大量的图像和标签,以训练其学习数据之间的相关性。

然后,网络将会在所看到的图像中进行正确的识别。换句话说,训练会使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能以不同程度的准确度预测从未见过的物体标签,即泛化。可以说,网络的规模决定了它的记忆量。一个古老的数学结果表明,要用曲线拟合n个数据点,需要一个包含n个参数的函数。当神经网络在20世纪80年代首次作为一股力量出现时,思考同样的事情是有意义的。

无论数据的维度如何,他们应该只需要n个参数来拟合n个数据点。“这不再是将会发生的事情,”德克萨斯大学奥斯汀分校的Alex Dimakis说。“现在,我们常规地创建神经网络,它的参数比训练样本的数量还要多,这意味着书必须重写。”他们正在研究神经网络需要加强的另一种特性——鲁棒性,即网络处理微小变化的能力。

例如,一个鲁棒性差的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改的版本错误地标记为沙鼠。2019年,在Bubeck和同事们意识到这个问题与网络规模有关时,也试图进行一些与之相关的定理证明。据研究推测,鲁棒性法则应该适用于所有的两层神经网络。在本文中,研究团队也证明了它实际上适用于任意光滑参数化函数类,只要参数的大小至多为多项式。而且多项式大小限制对于有界深度神经网络是必要的。

Bubeck说:“我们当时正在研究对抗的例子,然后网络规模就强行加入了进来。于是,我们意识到这或许是一个令人难以置信的机会,因为涉及到了解规模本身的一系列问题。”在研究过程中,这对搭档证明了过度参数化对于网络鲁棒性的必要程度。随后,他们通过计算需要多少个参数来将数据点与具有等同于鲁棒性的曲线拟合,得出了平滑性。

为了充分理解该点,再次回想平面中的曲线,其中x坐标表示单个像素的颜色,y坐标表示图像标签。由于曲线是平滑的,如果对像素颜色稍加修改,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于明显锯齿状的曲线,x坐标的微小变化可能诱发y坐标的剧烈变化。这项研究表明,平滑拟合高维数据点并非需要n个参数,而是高达n×d个参数,其中d是输入的维数。

换句话说,如果你希望网络能可靠地记忆其训练数据,过度参数化不仅有帮助,而且是强制性的。这一证明依赖于高维几何的一个奇怪的事实,即在球面上随机分布的点彼此之间几乎都是一个直径的距离。点之间的巨大间隔意味着用一条平滑的曲线拟合它们,需要许多额外的参数。该结果提供了一种新颖的方法,以更好地理解为什么简单的神经网络扩展策略却如此有效。

除了这次的研究之外,其他相关的一些研究,也揭示了过度参数化之所以有用的原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然依据目前所知,过度参数化对于鲁棒性是必要的,但尚不清楚鲁棒性对其他事物究竟有多重要。但是,如果能将其与过度参数化联系起来,新的研究便给出了明示,鲁棒性极有可能比人们想象的更重要。【学术头条】与【数据实战派】是我们科学+科技内容联合体的主要成员。

【数据实战派】致力于打造一个不用感叹号的新兴AI内容自媒体,围绕“计算+智能”技术,力求从种种杂音和噪声中,压缩出更纯粹且重要的知识,助力中国AI开发者的高速成长。目前,【数据实战派】由一批具有AI/CS专业背景的作者及资深科技编辑共同运营,并已聚拢一大批有着深度阅读习惯、优质内容品位的读者。我们期待有志之士的加入,共同打造高规格的AI技术社区。

UUID: abe9823b-ed33-4f7c-afcd-da6dca756367

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2022年/学术头条_2022-02-27_「转」研究揭秘:神经网络越大、表现越好的“神秘力量”.txt

是否为广告: 否

处理费用: 0.0053 元