无心插柳：苏联数学家柯尔莫哥洛夫与神经网络的新生

大模型向计算理论提出了新问题，而计算理论也可帮助大模型揭示第一性原理，从而找到边界和方向。例如，苏联数学家柯尔莫哥洛夫和学生阿诺德在20世纪50年代完成的KA叠加定理。今年五一假期，麻省理工学院物理学家Max Tegmark和其博士生刘子鸣等人在arxiv上挂出的一篇关于机器学习的文章引发关注。

他们提出了一种叫做KAN（Kolmogorov-Arnold Network）的新框架，称其在准确性和可解释性方面的表现均优于多层感知器（MLP）。今天，我们就来谈谈柯尔莫哥洛夫-阿诺德叠加定理的源起和发展。万能的苏联数学家柯尔莫哥洛夫对计算机科学有两大贡献。

首先，他和美国数学家所罗门诺夫和蔡廷独立发展的所罗门诺夫-柯尔莫哥洛夫-蔡廷理论（大多数时间被更简单地称为柯尔莫哥洛夫复杂性，或算法信息论）正在成为大语言模型的理论基础和解释工具。柯尔莫哥洛夫的另一重要贡献在数学界影响广泛，但很晚才被计算机科学家和人工智能学者赏识，尽管这项工作出现更早。

他和学生弗拉基米尔·阿诺德在1956-1957年间共同证明的表示定理或称叠加（superposition）定理，后来成为神经网络的理论基础。神经网络复兴的数学保障是通用逼近定理（universal approximation theorem），其源头就是柯尔莫哥洛夫-阿诺德叠加。以ChatGPT代表的大语言模型引发的讨论，多聚焦于数据与算力等工程问题，理论方面的研究则不那么热烈。

大模型向计算理论提出了新问题，而计算理论也可帮助大模型示第一性原理，从而找到边界和方向。在当下的理论没法解释工程实践时，工程师们也会转向历史去寻找前辈们被埋没的思想，力图为何去何从提供方向性的洞见。