科学研究的本质在于创造。生成式人工智能为更有创意的科学探索打开了无尽的想象空间。作为生成式人工智能的核心,生成模型学习数据样本背后的概率分布,并据此随机采样生成新的样本。生成模型和统计物理在本质上是同一枚硬币的两面。文章从物理的视角介绍扩散模型、自回归模型、流模型、变分自编码器等现代生成模型。生成模型在原子尺度物质结构的生成与设计中展现出巨大的潜力。
不仅如此,基于和统计物理的内在联系,生成模型对于优化“大自然的损失函数”——变分自由能具有独特的优势,这为求解困难的统计物理和量子多体问题提供了新的可能。同时,物理学的洞察也在推动生成模型的发展和创新。通过借鉴物理学原理和方法,还可以设计出更加高效、更加统一的生成模型,以应对人工智能领域中的挑战。
生成模型和统计物理的关系非常紧密。
一旦了解生成模型的物理学基因,就比较容易理解和改造它们,甚至发明新的生成模型。本文从物理学的角度介绍几类常见的生成模型,并举例说明它们在科学研究中的应用。相对于性质预测之类的“判别式”任务,“生成式”人工智能更难、更基础、也更有用。用数学语言描述,性质预测的目的是拟合函数y=f(x)。这里x是神经网络的输入,通常是代表微观结构的高维变量。y是输出,通常是代表宏观性质的低维变量。
在性质预测之外,人们往往还更关心从宏观性质到微观结构的反向设计问题。由于从结构到性质的函数不可逆,简单地寻找它的反函数往往不能成功。概率建模提供了一个有用的视角。这时,性质预测就是要学习条件概率分布p(y|x)。而反向设计意味着给定宏观性质y,从条件概率p(x|y)中采样生成新的微观构型x。贝叶斯公式告诉我们p(x|y)∝p(x)p(y|x)。
可见,把握微观构型的概率分布p(x)是“生成式”任务区别于“判别式”任务的关键。
生成模型在原子尺度物质结构的生成与设计中展现出巨大的潜力。不仅如此,基于和统计物理的内在联系,生成模型对于优化“大自然的损失函数”——变分自由能具有独特的优势,这为求解困难的统计物理和量子多体问题提供了新的可能。同时,物理学的洞察也在推动生成模型的发展和创新。通过借鉴物理学原理和方法,还可以设计出更加高效、更加统一的生成模型,以应对人工智能领域中的挑战。