大模型向计算理论提出了新问题,而计算理论也可帮助大模型揭示第一性原理,从而找到边界和方向。例如,苏联数学家柯尔莫哥洛夫和学生阿诺德在20世纪50年代完成的KA叠加定理。今年五一假期,麻省理工学院物理学家Max Tegmark和其博士生刘子鸣等人在arxiv上挂出的一篇关于机器学习的文章引发关注。
他们提出了一种叫做KAN(Kolmogorov-Arnold Network)的新框架,称其在准确性和可解释性方面的表现均优于多层感知器(MLP)。今天,我们就来谈谈柯尔莫哥洛夫-阿诺德叠加定理的源起和发展。万能的苏联数学家柯尔莫哥洛夫对计算机科学有两大贡献。
首先,他和美国数学家所罗门诺夫和蔡廷独立发展的所罗门诺夫-柯尔莫哥洛夫-蔡廷理论(大多数时间被更简单地称为柯尔莫哥洛夫复杂性,或算法信息论)正在成为大语言模型的理论基础和解释工具。柯尔莫哥洛夫的另一重要贡献在数学界影响广泛,但很晚才被计算机科学家和人工智能学者赏识,尽管这项工作出现更早。
他和学生弗拉基米尔·阿诺德在1956-1957年间共同证明的表示定理或称叠加(superposition)定理,后来成为神经网络的理论基础。神经网络复兴的数学保障是通用逼近定理(universal approximation theorem),其源头就是柯尔莫哥洛夫-阿诺德叠加。以ChatGPT代表的大语言模型引发的讨论,多聚焦于数据与算力等工程问题,理论方面的研究则不那么热烈。
大模型向计算理论提出了新问题,而计算理论也可帮助大模型示第一性原理,从而找到边界和方向。在当下的理论没法解释工程实践时,工程师们也会转向历史去寻找前辈们被埋没的思想,力图为何去何从提供方向性的洞见。