导语
我们对机器学习的研究就像是盲⼈摸象。由于神经⽹络作为⼀个复杂系统实在是太过于复杂,我们所做的种种尝试就像是从不同⾓度触摸这只“⼤象”的局部,希望探知全貌⽽不能。是否存在⼀个 AI 的“⼤统⼀理论”,可以⽤⼀种⾃洽的⽅式刻画整头⼤象?
物理学家对世界总是有着独到的视⻆和洞⻅。⼀⽅⾯热衷于追求理论的普适性和统⼀性,另⼀⽅⾯⼜⾮常看重基于理论的实验对现实描述的准确性。从古⾄今,⽆论是⽜顿运动⽅程还是爱因斯坦相对论,都体现了物理学始终在追寻世界的普适真理。本⽂主要陈述了当前机器学习理论的先创,以及从物理学家的视⻆,⼀个好的机器学习理论应该是什么样。
关于什么是理论,百科上给出的解释包含两个关键点。⾸先是解释能⼒,即理论是从现实中抽象出来⽤于解释现实;其次更重要的是泛化性和预测性,也就是说理论还需要可以解释那些独⽴于我们所抽象的对象之外的⼀些现象。
那么,我们为什么需要理论?如果没有理论,我们有的只是对世界忠实的记录和观察数据,但这样的观察数据⼏乎是⽆限的。⽽我们能从现实观测数据中抽象出⽜顿⼒学,仅仅使⽤⼏个字符就实现对新现象的预测,重新“解码”出世界的信息。所以,理论能够帮助我们⽤更少的成本存储更多信息。
为什么理论的抽象是可⾏的,或者说这个世界⼀定可以被我们⽤理论抽象呢?
虽然这⾥的讨论和描述有点偏哲学,但想要强调的是,理论的存在其实不是理所应当的事情。这⾥主要有两个原因。⼀是数学语⾔可以强⼤到⽤于描述我们这个世界;⼆是“⼈择原理”告诉我们,存在即合理。那些不能⽤理论抽象的世界本身就可能不稳定或者太简单或者不适宜⽣存,⽽我们存在的宇宙之所以能被观测到,正是因为这个宇宙存在规律,所以我们有可能探索出世界运⾏的法则。
⽽我们接下去所有的讨论,也都建⽴在“我们这个世界可以被⼀个好的理论描述”这⼀前提之下。
接下来我们想要探讨,什么是好的理论?⽂献[1]指出,⼀个好的理论⼀⽅⾯要满⾜“理论”这⼀概念的基本要求,即实现对已有信息的压缩和泛化,另⼀⽅⾯则需要预测出与传统理论截然不同的新结论,并得到验证。换句话说,好的理论能给我们带来⾮常⼤的信息增益,在新的事实上不仅带来好的预⾔,还要⾜够的⼒量颠覆旧理论。
从这个⻆度看,截⽌到现在的机器学习理论,其实仅仅做到了第⼀点,实现对已有现象的总结和信息压缩,但还远没有达到能够指导新实验设计的步骤。当前机器学习研究的现状,是实验远远⾛在理论前⾯,⼯程师和科学家会根据⾃⼰的经验设计神经⽹络架构,理论则在后⾯缓慢前进。原因就在于,神经⽹络作为⼀个复杂系统实在是太过于复杂。我们⽬前所做的尝试都像是在“盲⼈摸象”,只能管中窥豹,⽆法探知全貌。
这⾥主要介绍两种传统的机器学习理论,基于计算学习理论的 PAC 学习理论和基于统计物理的分析。PAC 学习理论是⼀个机器学习的数学分析框架,1984 年由 Leslie Valiant 提出。这个框架将学习任务看作是从⼀个潜在概率分布中学习⼀个⽬标函数。我们希望通过观察⼀些训练样本来推断出这个⽬标函数。
然⽽,由于训练数据只是概率分布中的有限样本,我们不能保证推断是完全正确的,所以最终会得到⼀个近似解,或者说⼀个边界解。
基于统计物理的分析则提供了⼀种从宏观⻆度理解学习现象的⽅法,它关注的是学习系统的全局性质和⾏为。这种⽅法从统计物理的思路出发,将机器学习训练过程中我们关⼼的指标,⽐如泛化误差等看成是系统的典型统计量,主要做的事情,是对这些潜在的⽬标函数计算统计量,然后关注这些统计量分布的期望值如何,也就是说,这⾥关⼼的是最可能出现的结果。并且在⼀些热⼒学极限条件下,这些计算会变得很简单。
这两种理论框架都⾯临着挑战。例如,PAC 学习理论的⼀些假设在实际应⽤中可能不成⽴,⽽基于统计物理的分析则需要对系统的细节有深⼊的理解。如何将这些理论应⽤到实际的学习系统中,以及如何⽤这些理论来解释和预测实验现象,也是当前的研究热点。
如果把理论⼤致分成“登⼭式理论”和“铺路式理论”,前者指⽬标清晰,只需要想⽅设法爬到⼭顶,过程中间我们可以想办法增加假设使得能够尽快达到⽬标。过去 10 年中,理论学家为了理解⼀个概念或者算法,制定了很多很⾼的登⼭⽬标,但很多假设经不起推敲,使得很多结论也都南辕北辙,⽆法得到圈外⼈认可。⽽后者则是专注⾛脚下的路,致⼒于理解当前的问题,并不期待能够达到多远的⽬标。
从⼀个物理学家的视⻆,好的理论应该更像是铺路式理论,这⾥称之为“A physics-like theory”,表述不同,但含义基本上是相通的。这⾥所要强调的是,我们应该更加关注理论所带来的物理图景如何,⽽这恰恰也是历史上物理学家探索真理过程中贯穿始终的原则。
那么,机器学习的物理图景是什么?前⽂也有提到,我们对机器学习的研究就像是盲⼈摸象,我们从各个⻆度切⼊,试图弄明⽩这个复杂系统到底如何运作,并且也得到了许多结论。当然我们可以继续去从新的⻆度去摸这只“⼤象”的局部,尝试对它有新的理解;我们也可能试图从当前已有的结论中思考这个庞然⼤物的全貌究竟如何。
我们如何尽可能地接近机器学习的物理图景呢?讲者给出了物理学家看待世界的⽅式,或许对于机器学习的理论研究也有帮助:第⼀个原则是从现实实验和观测出发构建理论,⽽不是凭空做出假设;需要能够找出系统最关键的⾃由度;需要⽤动态的视⻆看待系统;更偏好直观图像甚于严格的数学。也就是说当直观图像和数学严格性发⽣⽭盾时,倾向于更接近物理现实的直观图像。
以 grokking 这⼀现象为例。
机器学习中的 grokking 现象是指,训练集的收敛往往快于测试集的收敛,也就是⼆者的收敛速度会有⼀个时间差。在这个时间差期间,算法更像是在过拟合的空间中运作,然后随着迭代次数增加才会向泛化性上优化,即测试集准确度升⾼。
⽂章找出了这⼀现象的关键变量——神经⽹络的权重范数,发现权重范数的变化刚好对应了这⼀现象:当训练准确度很⾼时,权重范数也很⾼,意味着此时在⽤蛮⼒执⾏任务,⽽当测试准确度⾼时,权重范数开始下降,模型泛化能⼒增强。
进⼀步,⽂章还指出我们可以⽤动态的视⻆研究模型从过拟合到泛化的过程发⽣了什么。⾸先是发现了权重的衰减速度和测试集准确度的优化时间刚好是⼀个反⽐关系,这很像是速度和时间的关系,说明神经⽹络的优化过程很可能存在和现实世界类似的物理图景。
综上所述,物理学家眼中的机器学习理论,需要具备理论的解释能⼒、泛化性和预测性。然⽽,⽬前的机器学习理论还未能完全指导新实验设计,这是因为神经⽹络作为复杂系统的复杂性使得理论分析⾯临重重挑战。好的机器学习理论应该更像是铺路式理论,注重理解当前问题,并关注物理图景的建⽴。
探索科学启发的机器学习理论不仅能够深化我们对机器学习的理解,还可以为其未来发展提供新⽅向。通过将科学的观察和实验⽅法应⽤于机器学习领域,我们可以期待更加全⾯、准确和可解释的机器学习理论的涌现。这将推动我们从“盲⼈摸象”状态⾛向更加完整的物理图景,构建⼀个“AI 大统一理论”,使机器学习不仅仅是⼀种⼯程应⽤,更成为⼀⻔深⼊理解和模拟智能的科学。