我们认为,人工智能进入了新的拐点。在一个后深度学习时代,不同的学者对未来智能发展道路的理解逐渐清晰,当然也逐渐开始分化,由此导致了开展布局完全不同的研究工作。智源社区将系统分析全球范围内知名学者对未来研究布局的「研究思路」,以帮助大家思考人工智能的未来。
寻找深度学习的普适理论一直是学界关注的焦点。在深度学习的工作中,我们常常使用许多经验性的方法,例如选择不同的非线性层,样本的归一化,残差链接,卷积操作等等。这样的方法为网络带来了优秀的效果,经验性的理解也为深度学习发展提供了指导。但似乎我们对其理解仅限于此,由于网络的黑盒性质,这些方法究竟从理论上如何工作,为何需要加入网络,我们似乎难以回答。
近日UC Berkeley的马毅教授的报告“Deep Networks from First Principle”提供了一种系统性的理论观点。报告中,马毅教授阐述了最大编码率衰减(Maximal Coding Rate Reduction, MCR^2)作为深度模型优化的第一性原理的系列工作。
此外,马毅介绍了近期的工作:通过优化 MCR^2 目标,能够直接构造出一种与常用神经网络架构相似的白盒深度模型,其中包括矩阵参数、非线性层、归一化与残差连接,甚至在引入「群不变性」后,可以直接推导出多通道卷积的结构。该网络的计算具有精确直观的解释,受到广泛关注。
正如费曼所说「What I cannot create I do not understand」。该工作表明,为了学习到线性划分的样本表示,所有这些常用方法都能够精确推导出来,都是实现该目标所必须的。因此,通过该工作,可以更加直观细致地理解神经网络中的常用方法。
深度学习则将上述数据分析的任务“塞”进黑箱运算中。例如在神经网络分类任务中,我们将输入与输出的标签相互对应,然而足够大的深度网络能够拟合任何给定标签。尽管在实践中取得了很好的效果,但是理论上来说,训练深度神经网络并不能保证稳定和最优,且我们无法从中了解到模型究竟学到了什么。
通过压缩来聚类和分类。传统聚类方法通常采用最大化相似度的方法进行,而应用在高维退化分布的数据上时,相似度难以定义。因此,我们从更基础的问题出发,为什么需要聚类划分数据?从压缩角度,我们可以看出,能够划分的数据具有更小的空间,通过划分能够获得对数据更有效的表示。如果能找到编码长度的有效度量,就可以设计相应的优化目标。
通过最大编码率降低来表示。在完成了 Interpolation(聚类)与 Extrapolation(分类)后,从压缩的视角,还能够实现对数据的表示。当数据符合某种低秩结构时,优秀的表达的目标可以被理解为,最大限度地学习到该结构特征,即,在让同一结构样本靠近的同时,使样本表达能力最大;同时,将不同结构数据间的差异尽可能清晰地体现出来。
从优化编码率降低来构建深度网络。通过对 MCR^2 目标进行梯度下降优化,我们甚至可以利用这一原理构造一个新的深层网络 ReduNet。对该目标求梯度后,获得了两个操作矩阵 E、C,所求梯度就是其分别与样本乘积的和。
从平移不变性得到卷积网络。通过引入组不变性,将 cyclic shift 后的样本视为同一组,每次将一组样本编码到不同低秩空间,ReduNet 可以实现识别的平移不变性。同时,类似卷积的网络性质也随之而来。在引入平移不变的任务要求后,网络使用循环矩阵表示样本,因而在与 E,C 矩阵进行矩阵乘时,网络的操作自然地等价于循环卷积。
总结。
基于“First Principle”的理论,报告中的工作展现了广泛的前景。报告中拓展了许多未来方向,其中包括基础的关于压缩与学习关联的理论,关于 MCR^2 准则的研究,以及对 ReduNet 网络的进一步优化工作。尽管上文中算法有诸多变化,其核心都是基于“压缩”的概念。聚类,划分,表征,这些学习任务都可以被表述成压缩任务。
我们希望学习到样本的知识,是期望能够更高效地表示样本,因此我们学习类别,提取特征,抽象概念。MCR^2 原理基于率失真理论,描述了划分和压缩的过程,并能够基于压缩,完成包括聚类,分类,表示学习,构造网络等等任务,体现了作为学习的一般原理的泛用性能。