前所未有：用 AI 控制核聚变，DeepMind 再登 Nature

毫无疑问，DeepMind 正在加速将其 AI 算法应用于最前沿的科学问题上。

继此前振奋业界的蛋白质预测成果之后，今日，DeepMind 又一个硬核研究亮相，在这篇名为 Magnetic control of tokamak plasmas through deep reinforcement learning 的 nature 文章，DeepMind 的科学家和来自 Swiss Plasma Center - EPFL 的研究者，共同提出了一种强化学习算法，来控制托卡马克核聚变反应堆内的等离子体。

这一进展将可以帮助物理学家更好地了解聚变的工作原理，并有希望加速这种“终极能源”的到来。

太阳源源不断的能量来自于原子核的聚合反应，即核聚变。因此，可控核聚变技术的实验装置，常被称作“人造太阳”。但一直以来，人们希望找到有效控制和限制等离子体的方法，只有这样这种“终极能源”才能为人类所利用。具体到工程实现上，科学家们正在尝试借助托卡马克装置通过使用磁场限制等离子体。

在托卡马克装置中，磁场线圈会限制等离子体粒子，以使等离子体达到聚变所需的条件。如下图所示，一组磁线圈产生一个强烈的“环形”场，围绕环面进行引导。一个中央螺线管（承载电流的磁体）产生一个沿“极向”方向的第二个磁场，即围绕环面的路径。这两个场产生了一个扭曲的磁场，将粒子限制在等离子体中。此外，还会有第三组磁线圈产生一个外极向场，用于塑造和定位等离子体。

其中一个困难之处在于，尽管这些控制器通常很有效，但每一次研究人员想要改变等离子体的配置，并尝试不同的形状以产生更多的能量或更清洁的等离子体时，都需要基于模型和仔细的模拟，进行大量的工程和设计工作，并平衡复杂的实时计算。在 DeepMind 的这个方案中，通过使用强化学习（RL）生成非线性反馈控制器，一种全新的等离子体控制方法成为可能。

他们开发了一个深度强化学习系统，来控制瑞士等离子体中心的可变配置托卡马克内的 19 个电磁线圈，设计架构如下图所示：其包含以下三个主要阶段：首先，设计者指定实验目标，可能伴有时变控制目标。其次，深度 RL 算法与 tokamak 仿真器交互，寻找接近最优的控制策略以满足指定的目标。第三，控制策略以神经网络的形式直接在 tokamak 硬件上实时运行。

在第一阶段，实验目标由一组目标指定，这些目标可以包含各种各样的期望属性。这些属性范围从位置和等离子体电流的基本稳定到多个时变目标的复杂组合，包括具有指定延伸率、三角形和 X-点位置的精确形状轮廓。然后，将这些目标组合为一个“奖励函数”，在每个时间步中为状态分配标量质量度量。这个函数还惩罚达到不是所期望的终端状态的控制策略，如下所述。

最重要的是，精心设计的奖励函数将被最小化，以给予学习算法最大的灵活性，进而达到预期的结果。

在第二个阶段，如图 1a，b 所示，高性能 RL 算法收集数据并通过与环境交互发现控制策略。研究团队使用具有足够保真度的仿真器来描述等离子体形状和电流的演变，同时保持足够低的学习计算成本。具体而言，团队采用了自由边界等离子体演化模型，以模拟极场线圈电压影响下等离子体状态演化的动力学过程。

在该模型中，线圈和无源导体中的电流在电源外部施加的电压，以及其他导体和等离子体内部随时间变化的电流产生的感应电压的影响下发生变化。反过来，等离子体由 Grad-Shafranov（G-S）方程模拟。这组方程由 FGE 软件包进行数值求解。RL 算法利用收集到的仿真器数据，针对指定的奖励函数找到一个接近最优的策略。

在论文的基础能力验证部分，团队首先展示了这一方案对等离子体平衡基本质量的精确控制。

然后，通过复杂的、随时间变化的目标和物理相关的等离子体配置，系统对控制范围进行了广泛的平衡。最后，实验展示了对容器中具有多个等离子体“液滴”配置的同步控制。另一个重要的能力——即为科学研究生成复杂配置的能力。每个演示都有自己的随时间变化的目标，但除此之外，使用相同的架构设置来生成控制策略，包括训练和环境配置，只需对奖励函数进行少量调整。

此外，RL 方法大大简化了控制系统。

单个计算成本低的控制器取代了嵌套控制架构，消除了独立平衡重建的要求。这些综合优势，缩短了控制器开发周期，并能加速了更换等离子配置验证。总而言之，研究人员认为，使用 AI 算法控制等离子体，将使在反应堆内进行不同条件的实验变得更加容易，帮助他们了解这个过程，并有可能加快商业核聚变的发展。AI 还学会了如何通过以人类以前从未尝试过的方式调整磁铁来控制等离子体，这表明可能会有新的反应堆配置可供探索。

正如瑞士等离子中心主任 Ambrogio Fasoli 所说：“我们可以通过这种控制系统来冒险，否则我们不敢冒险。” 人类操作员通常不愿意将等离子体推到一定限度之外。有些事件我们必须避免，因为它们会损坏设备，如果我们确定有一个控制系统可以接近极限但不会超出极限，那么就可以探索更多的可能性。研究可以继续加速。