无心插柳:苏联数学家柯尔莫哥洛夫与神经网络的新生

作者: 尼克

来源: 赛先生

发布日期: 2024-05-10 17:20:54

苏联数学家柯尔莫哥洛夫和学生阿诺德在20世纪50年代完成的KA叠加定理,成为神经网络的理论基础,并在现代机器学习中得到新的应用和关注。

大模型向计算理论提出了新问题,而计算理论也可帮助大模型揭示第一性原理,从而找到边界和方向。例如,苏联数学家柯尔莫哥洛夫和学生阿诺德在20世纪50年代完成的KA叠加定理。今年五一假期,麻省理工学院物理学家Max Tegmark和其博士生刘子鸣等人在arxiv上挂出的一篇关于机器学习的文章引发关注。

他们提出了一种叫做KAN(Kolmogorov-Arnold Network)的新框架,称其在准确性和可解释性方面的表现均优于多层感知器(MLP)。今天,我们就来谈谈柯尔莫哥洛夫-阿诺德叠加定理的源起和发展。万能的苏联数学家柯尔莫哥洛夫对计算机科学有两大贡献。

首先,他和美国数学家所罗门诺夫和蔡廷独立发展的所罗门诺夫-柯尔莫哥洛夫-蔡廷理论(大多数时间被更简单地称为柯尔莫哥洛夫复杂性,或算法信息论)正在成为大语言模型的理论基础和解释工具。柯尔莫哥洛夫的另一重要贡献在数学界影响广泛,但很晚才被计算机科学家和人工智能学者赏识,尽管这项工作出现更早。

他和学生弗拉基米尔·阿诺德在1956-1957年间共同证明的表示定理或称叠加(superposition)定理,后来成为神经网络的理论基础。神经网络复兴的数学保障是通用逼近定理(universal approximation theorem),其源头就是柯尔莫哥洛夫-阿诺德叠加。以ChatGPT代表的大语言模型引发的讨论,多聚焦于数据与算力等工程问题,理论方面的研究则不那么热烈。

大模型向计算理论提出了新问题,而计算理论也可帮助大模型示第一性原理,从而找到边界和方向。在当下的理论没法解释工程实践时,工程师们也会转向历史去寻找前辈们被埋没的思想,力图为何去何从提供方向性的洞见。

UUID: 4869bbaf-bef2-4f62-8431-32e3e284ad2f

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/赛先生公众号-pdf2txt/2024/赛先生_2024-05-10_无心插柳:苏联数学家柯尔莫哥洛夫与神经网络的新生.txt

是否为广告: 否

处理费用: 0.0111 元