深度学习的理论来源：一个炼金术师的自述

我们希望和你聊聊我们很感兴趣的新科学成果，说说我们平时的生活和以前的故事。我们还会立足哈佛所在的博士屯，放眼世界，找到各个领域的大佬和新人们，听听他们有什么没法在论文的致谢里塞进去，但却想说给大家听的话。上大学的时候有那么一次，我在食堂遇到一个哥们儿。我和他说我现在在上一门叫“理论神经科学”的课。过了半个学期我向他请教一个拉格朗日乘数（Lagrange Multiplier）的问题，说作业里要用。

他满脸吃惊地看着我说，“‘理论神经科学’不是讲什么人死了以后意识到哪里去了吗？！”Christof Koch口中“宇宙中最复杂的物质”——人脑——是一个复杂的物理系统。用量化的手段描述复杂系统的性质，正是理论神经科学的初衷。缺乏理论上的指引和理解，我们对到底应该做什么实验、怎么分析得到的实验数据愈发无助。在实验工具愈发精密、数据愈发全面的今天，这是一个尤为重要的难题。

有时，对理论神经科学的缺乏了解，导致一些三十年前已经充分研究过的系统被当成新问题、新结论来研究。由此我想写写如今大热的深度学习和理论神经科学间千丝万缕。

机器学习里有个很有名的会议叫神经信息处理系统进展大会（NIPS，全称是Neural Information Processing Systems）。

2017年的NIPS上，Google的工程师Ali Rahimi在他获得一项大奖之后的发言中称，深度学习成为了今天的炼金术。这个说法由此而来。这个说法在业界引起了大论战，既有强烈反对这个说法，感到被侮辱的；也有支持这个说法，反思深度学习当前发展态势的。炼金术是把一种金属变成另外一种金属的买卖。在现代化学发现不同的金属是由不同原子组成的之前，炼金术师们幻想着通过捣腾金属来实现元素之间的转变。

当今上过初中物理的朋友大概就知道这不大可行，然而就连了不得的艾萨克·苹果大王·牛顿也曾沉迷于炼金术。炼金术师们缺乏现代理论的指导，通过不断摸索尝试，没能变出金子来，倒是歪打正着地推动了冶金、化学等行业的发展。

在有的深度学习从业者看来，深度学习是当代的炼金术。Rahimi的这个比喻这么说，是因为深度学习中理论的匮乏。

用最宽泛的定义来说，深度学习是对已有机器学习方法的叠加；用比较容易想象的定义来说，深度学习使用类似神经网络的系统来学习。不管用哪个定义，深度学习都涉及到把学界已经不太理解的东西聚合在一起，变成了更难理解的，额，大东西。应对着这样复杂的系统，深度学习从业者没有可靠的理论作为支撑，只能东试试西试试，“歪打正着”地取得进展。

各种不知道为什么要想直观地体验深度学习的发展是多么歪打正着，我们可以比较一下我现在戴着的眼镜，和在机器视觉领域经典的神经网络，AlexNet。咱们来一项一项考虑它们是怎么设计出来的。AlexNet第一层的卷积内核是11像素x11像素的。为什么是11不是10，不是12？不知道，作者写论文的时候也没讲。在AlexNet之后的机器视觉系统也要么是沿用了11x11的设计，要么同样莫名其妙地选了另一组参数。

而AlexNet为什么有9层，为什么第一层的卷积内核是11乘11的，第二层就变成5乘5，后面又变成3乘3了？作者也没说。甚至，为什么这个内核的大小越来越小也没有交代。

所以说，名噪一时的卷积神经网络，理论基础还不如我鼻梁上挂着的眼镜。

设计AlexNet的作者Alex Krizhevsky，他的一篇论文下来能有几十个上百个完全没有解释的设计选择，连大的设计思路都没有很好的理论基础和motivation。即便如此，只要最后搞出来的神经网络表现出众，那就够了。可能有人会觉得，什么理论不理论的，都是读书人的迂腐罢了！然而理论还真不是读书人的迂腐，它很重要。

掌握了一个问题的理论基础，我们就能提前进行预测，知道什么样的设计能成功，什么样的设计不用浪费时间尝试；一个设计成功了，我们能分析哪个细节，下次便多用这个细节；如果理论已经能证明一些目标是不可能实现的，那我们也不必大开脑洞地去试图实现这个目标；通过理论，我们也能看出新的设计是否只是新瓶装旧酒，还是真的有实质性突破。

理论大法这么好，为什么深度学习没有好的理论呢？

第一个原因是，深度学习的研究，现在很多是由工业界的科研部门在驱动，而工业界的科研当时注重应用。明明试试不同的神经网络的参数就能取得一些性能上的提升，给企业带来收益，干嘛要去干开发理论这种又不知道要花多少时间又不知道能不能成功的东西呢？按道理说，工业界科研总的来说都是比较在意应用的，理论研发要靠学术界来带，这一点在什么学科都是一样的。

但是深度学习在性能上的重大成功，让工业界的企业们不惜重金挖走学术界的大佬们。在工作环境、薪金等方面，科技企业能提供非常诱人的offer，很多在大学里取得教职的教授也是很心动。不少人就抛弃了理论事业，投身工业的应用去了。

工业界科研力量缺乏做理论研究的动力只是一个方面。另一点是，深度学习的理论很难做。对于神经网络的理论研究，远在机器学习的浪潮之前就开始了。然而直到今天，我们对于神经网络的理论还较为原始。解释力不足、难以产生可以实验认证的预测，成为神经科学理论的重要问题。

神经网络的复杂性驱使了理论学家诉诸统计物理。19世纪末开始的统计物理今天已经是较为成熟的学科。

统计物理所研究的问题，确实和理论神经科学有不少相通之处：可以说，这两个学科都是研究复杂的宏观行为是如何由微观结构和性质产生的。在70年代，众多统计物理学家们转行做起了神经网络的理论，开始把神经网络的问题转换成在数学上研究较为充分的物理问题：工作记忆成了神经网络中能量曲面上的吸引子。原来记电话号码几个数字的能力也可以说的这么酷炫吗！而感觉系统变成了信息论中的一个信息通道。

所以感觉神经网络是个物理问题啊！这货是怎么被扯到机器学习里去的呢？人脑是不断变化的，神经元之间连接的强度可大可小，让人获得了学习的能力。于是心理学家们想着，那咱们也搞个会变化的神经网络模型呗。他们提出了一个叫perceptron的简单模型，并指出这种系统虽然简陋，但是也有存储信息的能力！这种模型，指出了像“记忆”、“学习”这样的心理学现象，是如何能由一个物理系统来实现的。

蠢蠢欲动的统计物理学家们，如爱丁堡大学的Elizabeth Gardner、普林斯顿的John Hopfield等人蜂拥而上，硬是把一个直直的心理问题掰成弯弯的物理问题。其中，以Hopfield命名的Hopfield Network把神经网络的变化和一个单一的标量自由能函数联系在了一起。在这个模型里，所有神经元之间的连接变化，都是在最小化系统的自由能。这就给了机器学习的熊孩子们以思路。

在Hopfield Network的自由能表达式中，既有神经元之间连接带来的自由能，也有“外界环境”带来的自由能。这个结构本身便是受了伊辛模型的启发，神经元连接的自由能就像是相邻原子自旋相同/相反导致的能量，外界环境的自由能就像是外界磁场带来的能量。

但是机器学习熊孩子们的脑洞不止于此。他们设想，我们要不干脆就放弃物理原理吧。

假如我们抛弃自由能函数，定义一个我们想要在实际生活中最小化的函数（比如说，辨认手写数字的错误率），然后把这个函数当自由能函数一样做最小化，是不是也能取得不错的效果呢？这里基本的操作，就是反向传播算法。我对网络中的每一个参数都求这个函数的偏导数，再按照偏导数调节这些参数，实现函数的最小化。按照当时的统计学习的理论，这个思路有一万个出错的地方。

和简单的统计模型相比，神经网络的参数要多得多，经常远远比用来训练的数据量大。按道理说，这应该导致训练“过拟合”，也就是网络学到的东西只适用于训练的数据集，不能用来推广；神经网络最小化的函数经常有无数个local minimum，按道理说用反向传播会导致系统卡在local minimum不能动；大的神经网络训练和运行，需要做极多的矩阵运算，对于计算机性能要求也很高。

然而深度学习有千千万万失败的理由，结果却很成功了。而深度学习的成功，就变成做神经网络理论研究的人面前又一大难题：和别的机器学习方法相比，深度学习到底特别在什么地方？是什么让深度学习取得这样的成功？

绕了这么一大圈，我是想说两件事。首先你看，就算是统计物理的高大上方法，仍然只能描述非常简陋的神经网络。

这些方法所能透彻理解的神经网络，不要说和人脑相比，就算是和机器学习课上教学用的小学生神经网络都相差甚远。最最基础的三维Ising模型物理学家研究了大半个世纪了，仍然没有找到解析解，而Ising模型又已经是高度抽象和简化的神经模型了。也就是说，就算是用上了统计物理的数学方法，我们也就能研究个智力比不上微生物的神经网络。

不管是人的神经系统，还是深度学习所使用的神经网络，复杂程度都远远超出了已有方法能描述的范畴。第二是，想做深度学习应用的人，根本不需要掌握什么理论知识。已有的理论知识，要么是描述和商用深度学习系统完全不同的系统的，要么是预言深度学习不会成功的。而真的要让一个深度学习系统跑起来，除了会编程，最麻烦的地方也就是设计一个损耗函数了。

理论对于今天很多的深度学习人来说，是一个既不懂又不想懂的东西，Hopfield等等本应该熠熠生辉的名字，很多深度学习实践者却没有听说。据说，某业界超级大佬的指导思路就是，不用懂一个东西什么原理，管用就行了。

缺少了理论基础，深度学习像一剂成分复杂、原理不明的药。在机器学习愈发普遍的未来，我们真的希望在生活的方方面面依赖一个原理不明的东西吗？正如制药者希望能提取药剂里的有效成分，我们也希望能找到深度学习取得成功的关键并加以推广，并发现和改善深度学习隐藏的种种弊病。