重整化群遇见机器学习：多尺度视角探索复杂系统内在的统一性

正因为“太小的结构我们看不清，太大的结构我们看不全”，所以我们需要使用重整化群的方法，不断把系统的重要特征突出，把不重要的特征抹除，最终我们会发现，或许整个世界是由一个个有限的岛屿组成，每个系统都会属于一个岛屿，再无其他。

本文从伊辛模型的重整化开始介绍了重整化群理论，然后系统梳理了重整化群和机器学习结合之处的系列研究，最后探讨了与重整化群殊途同归的多尺度动力学建模在探索非平衡动力系统方面的前沿进展，包括因果涌现理论、本征微观态理论、强化学习世界模型等。

重整化群在物理领域，尤其是粒子物理和统计物理领域具有非常重要的地位。引用加州大学圣迭戈分校尤亦庄老师（E大）关于重整化群的使用场景的总结就是：太小的结构我们看不清，太大的结构我们看不全。所以，我们需要重整化群来对系统进行截断或者进行“粗糙化”的描述。

什么是重整化群首先我们先形式化地表示一个系统。

对于一个动力系统，我们可以利用这样一个方程来描述：dx/dt = f(x, θ) (1)其中x是系统的变量，而θ和f的形式在特定问题下通常是固定的。引入尺度的概念。引入尺度意味着什么呢？实际上引入尺度的视角，就好像我们在用不同分辨率的眼睛重新看这个系统，比如我们使用的分辨率更低了，那么我们看到的系统就会更“糊”，丢失了很多细节，但我们还是能看到系统在运动。

在这个新的尺度上我们也可以用一套新的动力学方程来描述，比如可以写成dy/dt = f'(y, θ')（平衡态系统则可以写成p'(y, θ') （2）

在这个新的描述形式下，系统的变量可以和原来不一样，参数可以不一样，就连方程的形式也可以不一样（从f变成了f'）。其实各个领域的传统方法，就是这么去处理一个系统不同尺度的。

不过，物理学家就是这么一群奇怪的物种，总是喜欢另辟蹊径做一些奇怪的事情。他们在对系统不断做粗粒化的过程，发明了重整化群的方法。重整化群这个工具要回答的实际上就是这样一个问题：我们在不断对系统做粗粒化的时候，系统会发生什么样的变化，也就是说在追问的是：系统在不同尺度之间存在什么样的关系？

实际上，延续上文的语言，重整化群要建模的，是不同尺度系统参数的动力学。即dθ/dl = g(θ, γ) （3）上面的公式有几个关键点，首先自变量由原来的时间t变成了尺度l，其次因变量是θ，也就是原系统的参数。这是在说，方程建模的是系统的参数随尺度的变化。

当然我们能写成上面这条公式的前提，是假设了不同尺度的动力学形式f和f'可以写成基本一致的形式（基本一致这个说法很微妙，我们会在下文给出解释）。这个假设虽然看着很强，但其实在很多物理系统中是非常合理的。

我们以经典的平衡态Ising model为例（Ising model的基本介绍见：伊辛模型 | 集智百科），块粗粒化（block coarse-graining）的操作其实可以近似等价于调控系统的耦合系数（也可以理解成温度，耦合系数和温度有直接的关系）。

当我们使用重整化群忽略系统的细节之后，还惊喜地发现，自然界中的各类系统虽然千差万别，但只表现出了有限类别的重整化行为。比如铁磁系统的相变和水的气液相变的相变行为居然非常一致。基于这一发现，人们就用不同系统在重整化过程中表现出行为的不同，而对系统进行了分类，这就是普适类（universality class）的概念。普适类的提出使得我们对临界相变系统的理解有了质的飞跃。

不过，当我们想使用重整化群理论对具体系统进行分析的时候，还是存在一些门槛的，比如我们需要设计合适的重整化策略，而有时候我们其实并不知道应该遵循什么原则来设计这一策略，这非常依赖于科学家的经验甚至是灵感。再比如是不是可以发明一些方法，把整个计算流程自动化，让机器自动去计算普适类，从而解放科学家的生产力，让科学家们去思考更重要的问题。于是，就出现了一批数据驱动和重整化群理论结合的方法。

Renormalization Group and Machine Learning

机器学习和重整化群的结合是一个非常前沿但也早就被人关注的领域，从PCA[1]开始就有相关的讨论。并且，深度学习的深度结构和重整化在形式上又有非常多的相似之处：重整化群通过不断粗粒化的方式提取系统的关键特征，而深度学习的每一层也是提取特征的过程，并且不同层的特征也有尺度的含义，越是浅层的神经网络编码的是小尺度的特征，越是深层则编码的就是大尺度的特征。

文章[2]首次明确指出了这种联系，并且尝试构造一个基于受限玻尔兹曼机（Restricted Boltzmann Machine，下文简称RBM) 的神经网络架构，建立了Ising模型 Kadanoff的块粗粒化和神经网络在解析上的精确映射，证明了深度学习算法可能确实是在用类似于重整化流的模式从数据中提取特征。这对于理解深度学习的运作机制有很大的启发。

与此类探索对应的还有一类文献[4, 5]，则直接研究训练好的RBM有什么样的特征，发现了所谓的RBM的重整化群流（RG flow），并且得出结论说RBM的稳定不动点就是一个 non-trivel的临界点。这个图像和Ising model描述的图像恰好相反（Ising的临界点是不稳定的不动点），背后的原理非常值得进一步探究。

诸如此类的研究都非常有趣，关注的问题核心其实是如何用统计物理的视角更好地理解神经网络的表征。不过这类探索往往局限于某一特定的神经网络框架，通常这个架构就是RBM，因为这个框架几乎就是为了和统计物理对应而设计的。这无论对于解决具体问题，还是对统计物理本身理论的进展而言，在科学层面其实都并没有特别本质的推进。

其实除了RBM这一传统的结构之外，CNN，张量网络，甚至各类生成模型都有和RG结合的潜力。我们更需要回答的应该是，这种结合可以有什么样的实际应用，或者对于增强神经网络的能力有什么样的帮助。这就有了下文介绍的另一类的工作，尝试使用RG理论作为神经网络设计的先验知识，真正用于解决实际问题，或者真正能够对物理理论起到实质性的帮助。

Machine Learning for Renormalization Group这类文章最经典的就是18年发在Nature Physics上基于信息论做重整化群的工作[6]。文章的动机是希望使用数据驱动的方式自动构造粗粒化策略，从而对系统实现重整化。而实现这一目标的手段就是约束系统在粗粒化后，宏观变量与原来系统的“环境变量”的互信息最大，而没有其他任何的先验知识。

这里的“环境变量”可以理解不参与当前局部的实空间块重整化的其他变量。最终，神经网络学习出的宏观变量就是有关的变量（relevant variable）。这和RG的图像一致，并且用这种方式也能得到临界指数。

随后发表在PRX上的工作[7]更是从理论层面严格推导了这种基于信息论的粗粒化的解析形式，为重整化策略的构建提供了非常有价值的原则，使得物理学家们有希望摆脱只能依赖于先验知识或者灵感对系统人工设计粗粒化规则的局限。更进一步，王磊和尤亦庄老师的工作则是提出最小化全息互信息的原理[8]，即每次扔掉的信息之间互信息是最小的，这样同样能保留系统有关的信息，本质上是对前文环境互信息最大化的扩展。

并且更fancy的是，他们引入了可逆神经网络（Invertible Neural Network），使得重整化过程扩展成了一个真正的群操作——而不是传统重整化的半群操作。这就使得学习出的神经网络本质上构成了一个生成模型：不仅可以类似传统重整化的方式提取关键变量，还能实现“逆重整化”重新采样出原来尺度的构型。这种建模的好处是，神经网络的每一层表征都可以对应到实际的物理含义。

这篇文章的后续更多的是在探讨将这种框架应用于实际的任务时[9]，比传统的方法会更具有哪些可解释性。目前还并没有在理论层面进一步展开分析。另外，尤亦庄老师团队还有一个有趣的工作[10]，他们设计了一个自训练的框架，只要给定系统的对称性而不用给出具体的模拟数据，就可以自动发现系统的普适类。

基本的思路是构建一个“细粒度”的模型和一个“粗粒度”的模型，让粗粒度模型尽可能生成和细粒度模型相似的构型，这一过程模拟了重整化过程系统的变化，并且再使用第三个模型作为重整化方程学习器，学习上述两个系统参数的动力学关系。三个模型一起运转起来后，就可以建模出对应对称性系统的重整化群方程，以及对应的临界指数。

非平衡态系统的多尺度建模

不过，由于重整化群理论本身主要还是在平衡系统中有很多出彩的分析，到这里为止我们讨论的也主要都是关于平衡态模型的重整化。这一方面是因为，对于非平衡态系统，问题的复杂程度上升了不止一个水平，其实到目前为止依然没有什么好的分析手法能够得出和平衡态类似的统一理论。而复杂系统更多的研究对象其实是动力学系统，这类系统往往都是处于非平衡态。

另外，非平衡态的分析除了缺乏完善的基础理论之外，也没有像Ising model这样研究的非常透彻的经典系统作为toy model供科学家们把玩，所以重整化群相关的工作并不像平衡态系统那样丰富，更别提数据驱动相关的重整化建模工作了。然而，多尺度的动力学建模在另一些领域中却百花齐放。

因为人们早就意识到了无论是对于动力系统的预测还是调控，不同尺度的信息确实是会发挥不同的作用：小尺度的高频信息对于短期预测有帮助，而大尺度的低频信息则在长期建模中起到关键作用。

从Reduced-Order Model (ROM)，到Equation-free Model (EFM)，再到现在前沿的因果涌现理论（Causal Emergence Theory），这些方法都是在用各自的原则尝试对一个动力系统进行降维或者简化。

而利用数据驱动的方法对动力系统进行降维的工作，近年来在学术界也有百花齐放之感。陈晓松老师团队开发的本征微观态方法从数据出发，使用奇异值分解方法对物理系统的数据进行模式分解，并在这些模式中发现了明确的物理含义[11]，这套方法不仅可以求解经典平衡系统的临界相变问题，还在许多复杂系统（包括集群系统，湍流，气候，金融，量子等等）中都取得了突破性的进展。

而[12,13]等一系列的工作结合了数据驱动的方法和Koopman算子（Koopman算子是一个对非线性动力系统线性化的算子，但很难计算）实现对动力学的模式分解（Dynamic Mode Decomposition）或者隐空间的学习。

还有启发于EFM，直接使用机器学习的降维方法（如VAE等），将系统的变量降维后直接在隐空间学习动力学——这被称之为有效动力学（effective dynamics）——从而实现对系统更好的预测[14]。

另外，强化学习领域中基于模型学习的world models相关的概念，像是从自己的世界观中开辟出了一个新的但是非常类似的想法[15]：尝试将和主体互动的环境用一个低维的模型来表示，从而提高预测和控制任务的效率，也已经成为这个领域非常前沿的话题。

总结本文从动力学的视角出发，尽量用图像的形式介绍了重整化群方法的基本思路，并且在第二部分介绍了机器学习和重整化群结合的前沿工作。

这类工作充满了奇思妙想，并且也确实为重整化群理论更广泛和更智能的应用提供了非常好的解决方案。在第三部分，我用非常粗糙的视角罗列了动力学多尺度建模的工作，展示了这一领域的多元和热闹，而这一类问题本质上都是对非平衡动力学系统问题多尺度解决方案的探索，并且确实对解决实际问题提供了非常重要的启发。另外，还有一个本文没有提到，但对于复杂系统多尺度建模来说也非常重要的领域：即复杂网络的重整化。

这类研究相对来说更为独立，关注如何用一个更小的网络来表示一个大的复杂网络，以解决大网络上的复杂计算问题，同样也是一个极具潜力的领域。

不过无论是动力学多尺度建模还是复杂网络的重整化，尽管吸引了科学家的驻足，目前还并没有出现像平衡态重整化理论那样的统一理论，帮助我们真正认识复杂系统内在的统一性。但我们依然可以相信，在不久的将来，我们也能发现这些复杂系统的岛屿所处何方。