对于纯粹贝叶斯主义者来说,奥卡姆剃刀并不是需要努力接受的哲学原则,而是贝叶斯范式中的一个数学定理。
2002年,通达·林恩·安斯利在美国俄亥俄州被控谋杀房东。安斯利声称她以为自己活在《黑客帝国》电影三部曲的“母体”之中,以此为自己辩护。在这一系列好莱坞电影中,“母体”是一项计算机模拟,绝大部分人类活在其中。人类在这个虚拟宇宙中相互交流了如此长的时间,以至于(几乎)没有人能够将模拟与现实分开。他们将模拟出来的宇宙当成了现实。
但《黑客帝国》不过是电影,而相信这部电影里的事情通常被视为不理智的表现。安斯利被认为患有精神疾病,也因此被判无罪。对很多人来说,《黑客帝国》只是虚构作品,只有精神有问题的人才会相信它是现实。
然而,斯蒂芬·霍金等著名科学家并不惮于认真考虑《黑客帝国》中的假设。尼克·博斯特罗姆甚至提出了一个相当有说服力的论证来支持这个假设:如果技术允许的话,或许人类比起现实会更喜欢在虚拟世界中滑雪,在那里没有严寒,雪崩也不会对人身安全造成威胁。人们可能会逐渐更偏爱虚拟宇宙,这样的话,“母体”可能就是所有足够先进的文明将迈向的未来。
然而,发达的文明拥有较多的人口。所以,我们可以预计宇宙中的大部分智慧生命生活在类似“母体”的结构中。但这样的话,如果我们随机选取宇宙中的一个智慧生命个体,比如说我们自己,那么这个个体的确处于“母体”之中的概率非常接近1。因此,有关“母体”的假设不仅值得考虑,甚至非常可能是正确的。因此,向其赋予一个难以忽略的置信度也并非毫无合理之处!
我们甚至可以走得更远,走进那些晦涩的形而上学理论之中。
有一个相当极端的理论叫作“上星期四主义”(Last-Thursdayism)。根据这个理论,整个宇宙都是上星期四创造出来的,包括整个地球、我们的所有文明、所有古迹、所有书籍,甚至所有回忆。如果你相信自己去年夏天在尼日利亚度过了一个假期,那只是因为在上个星期四一切被创造出来的时候,你的大脑包含着在尼日利亚度假的回忆。更厉害的是,上星期四主义是无法证伪的,而且完全合乎物理法则。
无论我们将来观察到什么现象,都可以在上个星期四找到它的原因。
但对于卡尔·波普尔来说,上星期四主义与“母体”假设一样都没有任何价值,因为它们是无法证伪的理论。这种回应看上去可能很诱人,但波普尔的可证伪性既没有经验上的对应物,又没有理论基础。我在这里就不再重复了。
能恰如其分地用于否定上星期四主义和“母体”假设的经典思想并不是波普尔的哲学,而是奥卡姆剃刀,这个名字来自哲学家奥卡姆的威廉。我们也把它叫作节俭原则、经济原则或者简洁原则。在1319年,奥卡姆这样写道:“Pluralitas non est ponenda sine necessitate.”意即“如无必要,勿增实体”。换句话说,简洁的理论更可取。
但是,我们其实很难看出为什么上星期四主义在简洁程度上比不上“可观测宇宙在130亿年前突然出现,然后产生了星系、恒星、行星、生物以及人类大脑这些复杂事物”这个替代理论。奥卡姆的简洁原则尽管表面看似简单,但实际并不单纯!看上去简单的东西不一定简单,而看上去复杂的东西也不一定复杂!
事实上,要严谨理解理论简洁性,必须用到算法复杂度之类的有关复杂度的理论。所以,要正确描述奥卡姆剃刀的话,所罗门诺夫的工作似乎是无法避开的基石。
但现在我们先着重阐述奥卡姆剃刀为何至关重要,特别是在构筑预测性理论这方面。统计学与机器学习方面的研究者需要这些预测性理论,而他们发现,如果没有奥卡姆剃刀的话,就会经常陷入所谓的“过度拟合”(overfitting)陷阱之中束手无策,我们也可以把它翻译成“过度诠释”。要理解过度拟合带来的不良后果以及奥卡姆剃刀(有可能)扮演的“救世主”角色,我们先讲一点闲话,看看一个处于过度拟合统治之下的领域:体育。
加时赛已经开始了,吉尼亚克射中葡萄牙队右边门柱的景象仍然萦绕在法国球员和球迷的心头。2016年欧洲杯法国对葡萄牙这场决赛对法国来说似乎胜利在望,毕竟在之前法国本土举办的两次大型国际足球赛事中,法国队都赢到了最后——除了有一次在第二次世界大战之前举办的赛事中落败,但那完全是另一个时代了。另外,法国在1984年和2000年都赢得过欧洲杯,就好像冥冥之中有种规律,会保证法国每16年都能夺得欧洲杯。
最后,法国队的历史证明,只有在拥有一位特别出众的球员时,他们才能取得最终胜利。在1984年欧洲杯是普拉蒂尼,在1998年世界杯与2000年欧洲杯是齐达内,而在2016年欧洲杯大出风头的则是格列兹曼。
然而在加时赛结束后,在这场决赛中进了唯一一球的却是葡萄牙。葡萄牙成了欧洲杯冠军,推翻了一切预言以及一切看似已然确立的统计规则。统计骗了我们!
但统计也许没有骗人。报纸标题写着,2016年欧洲杯总是令人大跌眼镜。在四分之一决赛中,德国首次在国际足球锦标赛中击败意大利。在半决赛中,法国战胜了德国,这是法国自1958年世界杯季军战以来对阵德国的第一场胜利。葡萄牙在此前对阵法国的所有赛事中惨遭十连败,这次决赛是他们首次战胜法国队。这些黑马都获得了胜利。
格列兹曼似乎度过了完满而引人注目的一年,而且他自身的表现也让他成为金球奖获得者的大热门,这就像是足球界的诺贝尔奖。然而在2016年欧洲杯中,格列兹曼在打败曼努埃尔·诺伊尔带领的德国队之后,却在决赛中输给了克里斯蒂亚诺·罗纳尔多带领的葡萄牙队。而几个月之前,他的俱乐部马德里竞技在欧洲冠军联赛中,继打败曼努埃尔·诺伊尔所属的拜仁慕尼黑后,却在决赛中输给了克里斯蒂亚诺·罗纳尔多所属的皇家马德里。
几个月之后,获得当年金球奖的是克里斯蒂亚诺·罗纳尔多——格列兹曼只排第三名。
我刚才提到的这些分析在体育新闻中都很常见,其中统计数字的用途是揭示那些神秘、惊人甚至令人不安的规律。然而对于机器学习的专家来说,这些分析可能没有任何价值,因为它们很可能是一种过度拟合。的确,如果观察足球历史并摆弄过往的比赛统计数据的话,人们总是能找到令人瞩目的统计规律。
每一个新结果都会摧毁其中的某些规律,比如法国每16年赢得一次欧洲杯,但可能成立的统计规律足够多,不会出现所有规律都失效的情况。恰恰相反,数据累积得越多,摆弄数据获得虚假统计规律的方法就越多。这就是过度拟合出现之处。如果事后解释的数目比数据增长得还快,那么无论数据是什么,我们都能找到办法解释它们。体育评论员花时间比较所有运动员在所有比赛中的所有信息时通常就是这种情况。
这就是为什么每过几天我们就会发现某位运动员创造了新纪录。
泰勒·维根在他的网站“虚假相关”(Spurious Correlation)上讽刺了这种过度拟合的现象。维根喜欢对网上的大量时序数据进行比较,系统地从中寻找那些高度显著的相关关系,然而这些相关关系在理论上如此不可能发生,实在无法让人认真对待。
通过这种方法,我们可以发现尼古拉斯·凯奇出演电影最多的年份就是泳池中溺亡人数最多的年份,而人造奶油消费较高的年份往往伴随着美国缅因州的高离婚率;此外,某年选出的美国小姐年龄越大,当年因烫伤而死亡的人数就越多。
幸运的是,即使在这些统计结果广为人知之后,政治家也没有尝试打断尼古拉斯·凯奇的电影生涯、禁止人造奶油或者向美国小姐的评委施加压力……泰勒·维根展示的这些事例非常令人着迷,原因正是人们倾向于否定任何因果联系,即使这些联系有着明确的相关性。
这些例子作为教育素材非常出色,可以提醒人们相关性不等于因果,特别是在过度拟合的可能性很高的时候——而我们的情况正是这样,因为用于测试相关性的数据集个数远远大于每个数据集中的数据个数。
然而,面对任何显著相关性都否定因果关系的存在不是我们大部分人会做出的反应,而过度拟合的陷阱也并不仅限于体育领域。我们在新闻中也能经常看到大量的过度诠释,人们对其非常认真,而它们导致的后果可能相当严重。
为了教育大众,FiveThirtyEight网站提供了一个界面,你可以在其中轻松摆弄与美国政治相关的数据。在捣鼓几下之后,你可以找到一组数据证明你支持的党派对于美国经济有着正面影响;而更厉害的是,只需要花几秒,你就能找到一项值超过了“科学方法”所需阈值的数据!也就是说,这项数据足够显著,可以发表在科学期刊上——那么显然也够格发表在《纽约时报》上!
FiveThirtyEight的方法能够得出任何预先给定的结论,因为这个网站提供了大量方法来衡量某个政治党派对经济的影响。那里有不同的经济指标(失业率、通货膨胀、国内生产总值、金融市场)、权力机关中各党派在不同位置的代表(总统、州长、参议员、众议员),还有各种对这些领导者的相对重要性的比较方法,人们甚至还可以选择是否将经济衰退纳入考虑。
最重要的是,人们可以选择各种参数的组合,比如说同时考虑失业率和国内生产总值,因此这个网站可以提供高达2048个关于某个政治阵营如何影响经济的可能解释。
然而你要记得,即使真正显著的效应并不存在,p值方法每20次就会有一次得出显著的结果!因此,在这个情况下,我们预计会有一百多项统计满足可以发表的科研标准!
更奇怪的是,如果再摆弄一下网站上数据,我们就会察觉到,要得到无论是对民主党有利还是对共和党有利的显著统计结果都很容易。也就是说,只要对FiveThirtyEight上的数据捣鼓足够长的时间,你就可以轻松发表一篇题为《证明某党派会损害经济的50个统计数据》的“标题党”文章,无论是民主党还是共和党!
但FiveThirtyEight的网页界面实际上能做的非常有限。
如果一位记者受到编辑部的压力,而自己又对计算机足够熟悉,或者认识一位足够熟悉计算机的朋友,那么他很容易就能生成上万甚至上亿种某个政治阵营对经济的影响的可能解释,足够在接下来的一百年里每天都发表上万条统计学上的显著结论。这就是过度拟合贻害深远之处。在探索言之有理的解释时,无论为什么立场辩护,人们都必然能找到有显著性的统计数据作为佐证——人们甚至通常不会意识到这些统计数据的发现并没有什么神奇之处。
即使每个统计数据都不太可能具有显著性,但所有统计数据都没有显著性更不可能。
这个简化后的结论解释了为什么在社会话题、种族主义相关政策、恐怖主义、粮食与宗教等话题中会出现众多互相冲突的文章。毕竟某个主题在人群中引发的好奇心越大,就会有越多的记者花时间研究这个主题。这是一个恶性循环,恶果就是会产生互不相容的信念。
这些信念的基础几乎完全来自过度拟合,但我们中的大部分人看不见这种过度拟合,因为我们读到的只是记者熟练地采集并选择出来的具有显著性的统计数据,而这些记者又被老板逼着要引起轰动。而如果我们将这些东西与“标题党”结合起来的话,那么似乎不可避免会直接导致失控的虚假信息的泛滥。
目前,绝大部分对自己深信不疑的活动分子一直被困于过分拟合这个陷阱中,无法脱身。当人们要为自己的立场辩护时,只需探索足够多的可能解释,就能从中找到似乎能论证这个立场的解释。只要人们花足够长的时间搜索,总会找到一个事后编造的解释。
不幸的是,据心理学家乔纳森·海特所说,社会科学中的实验一次又一次表明,人类总是先选好立场,然后再用(自己相信是)理性的论据来为自己的立场辩护。理性对我们来说只是一种工具,用于为我们预先建立好的信念寻找或者“喷出”解释。然而,这些事后的解释无处不在,只需要一个足够好的理由,我们就会对自己想要相信的东西深信不疑。
这就是我们不断在犯的错误,这就是迷信与超自然信仰出错的地方,这也是上星期四主义有问题的地方。对于所有新观察结果来说,都存在一个新的解释,可以将这个观察结果变得与上星期四主义相容。实际情况是,上星期四主义的信奉者在解释这个围绕着我们的世界时,最终发展出的宇宙模型都会与科学家们构筑的宇宙模型一样。但这样的话,上星期四主义这个假设就会变得多余,它无法让人们解释该理论其他部分无法解释的东西。
正因为这个假设是多余的,所以奥卡姆剃刀会把它剃掉。
你现在也明白了,奥卡姆剃刀是对抗过度拟合倾向的工具。奥卡姆剃刀提示我们,当每次发现新数据时,与其在相互竞争的各种理论之间来回切换,不如忽略那些过于复杂的理论,哪怕这会导致所有数据不能得到完美解释。毕竟,一般来说数据的成因众多,要进行完美的解释简直是天方夜谭。
骰子掷出6,空气中每个分子的的位置都有可能对这个结果产生影响。然而跟踪空气中的每个分子并不现实,特别是因为这些分子的个数远远超出了时至今日制造的所有计算机的储存空间总和。但掷骰子比我们更感兴趣的各种社会问题远远简单得多。如果我们无法完全解释骰子如何掉到桌子上,那么要对政治、恐怖主义和营养学方面的问题得出最终结论的期望就完全是呓语了。我们必须接受并拥抱模型的不确定性。
“所有模型都是错的”,这是件好事!
第一个理解不进行完美解释的重要性的人大概就是被称为“现代科学之父”的伽利略。他最伟大的天才之举就是挑战亚里士多德的物理学,断言并不是越重的物体就天然地下落得越快。伽利略的这一思想又被称为自由落体定律,但它对于实验来说却是荒谬的。捡起一根羽毛和一块石头,然后让它们自由下落,你就会看到伽利略错了。
但伽利略的天才之处就在于,他理解到物体下落的内在性质只是它运动的一部分原因。各种物体都受到空气的作用力,而羽毛更甚。空气对较轻的物体的阻碍大于对较重的物体的阻碍,这种阻碍甚至可以让鸟类飞起来。伽利略因此提出,如果没有空气,那么空气的效应也会消失,而我们就会观察到物体本质的下落过程,它应该与物体的质量无关。伽利略指出,在真空中所有物体都会以相同的速度下落。
人们经常说伽利略登上了比萨斜塔的塔顶来测试他的自由落体定律,但这个故事很有可能完全是由伽利略的学生捏造出来的。毕竟如果伽利略实际做过实验的话,他就会观察到更重的物体因为受空气阻力影响较小而下落得更快。可以肯定的是,伽利略的实验并不是实际的实验,而是思想实验,我在这里就不细说了,它证明了“物体质量是影响物体下落的唯一因素”这个假设是自相矛盾的——除非假设物体的质量对于下落没有本质上的影响。
出于同一种思考方式,伽利略还有另一个天才想法,那就是相对性原理。这一原理断言,一个坐在船上没有窗户的密闭货舱中的人不可能知道这艘船是不是在运动。他曾这样说过:“运动如同无有。”在这个问题上,实验同样不一定会确证伽利略的说法——我们可以想象这艘船在运动时会比停泊在港口时晃动得更厉害。然而理论与实践之间的差异足够微弱且任意,使得伽利略对于自己提出的运动相对性有着充足的信心。
不久之后,他对相对性原理的这种置信度让他将太阳放置在了宇宙的中心。
在这两个例子中,伽利略的天才之处体现在他偏好原理的简洁与优雅,而非它们与实际的符合程度。这就是为了避免其他人陷进过度拟合的陷阱而应用奥卡姆剃刀的杰出例子。半个世纪以后,轮到艾萨克·牛顿提出动力学基本原理,这一原理可以用4个符号来概括:F=ma。
两个世纪后,詹姆斯·克拉克·麦克斯韦在说明他写出的方程可以同时解释电、磁和光的时候,强调的也是这些方程的简洁与优雅。所有这些绝妙的理论都基于同一个原则:去掉互不相容的多个特设解释,用简单而普适的原理来代替它们,哪怕要付出理论不能完美解释所有现象的代价。
然而,如果你相信最优秀的理论必定简单,那可就错了。气象模型的极端复杂已经众所周知,而现代神经科学强烈暗示,对人类大脑的理解不可避免需要复杂得可怕的模型——可能必须跟大脑本身一样复杂!同样,2016年在围棋上打败李世石的人工智能AlphaGo也是如此复杂,必须用计算机才能将其表示出。
实际上我们在讨论所罗门诺夫妖时,已经看到了研究某个现象所必需的复杂度是什么:数据(遵循的概率分布)的所罗门诺夫复杂度。即使艾伦·图灵当时没有认识到这个概念的形式定义,他对这个概念的理解却已经比任何人更深远。图灵于1950年发表的那篇具有历史意义的论文就已经提出了“能够跟人类一样说话的计算机最少需要多少复杂度”这个问题。
依靠当时神经科学的初步进展,图灵估计,要建立能与人类一样进行交流的模型,最简单的算法也需要数十亿字节。也就是说,对于图灵来说,口头语中的所罗门诺夫复杂度大概就在十亿字节这个数量级上。
同样,生物学、社会学与经济学中众多现象的所罗门诺夫复杂度可能远远超出这个数量,因此我们的大脑也就不可能理解这些现象,因为大脑储存空间的上限似乎只有几千万亿字节。因此,在面对生物学、社会学和经济学时,一切简单模型都必定失败。
然而庞大的模型会将我们暴露在过度拟合的风险中。允许我们在不出现过度拟合的情况下提升复杂度的方法已经成为数据科学中的流行用语,那就是大数据。我们手头上的数据越多,我们就越能提升模型的复杂度。这个原则甚至还有一种严谨的阐述方式,那就是统计学习基本定理。粗略来说,这个定理确定了调整某个模型中的参数时必需的抽样数目,或者反过来说,给定抽样的数目,这个定理就会告诉我们需要考虑的模型要多复杂才合适。
统计学习基本定理中用于量化复杂度的指标是VC维度,这个名字来自两位计算机科学家弗拉基米尔·瓦普尼克和阿列克谢·契尔沃年奇斯。这一概念的严格定义对我们来说有点太复杂。粗略地说,VC维度计量的是我们能够对给定数据做出的特定解释的数目。我们可以从统计学习基本定理得出的规则大概是,抽样数目应该是我们考虑的所有解释组成的集合的VC维度的大约100倍。
目前为止,我重点强调的是过度拟合的问题,因为这大概是我们最经常犯的错误。然而,反过来也存在所谓的“拟合不足”,或者说“诠释欠缺”的问题。拟合不足就是没有足够重视理论与实际之间的差异。通常,在偷懒忽略不利于自身信念的数据时,人们就算犯了拟合不足这个错误——即使对于人类的情况来说也是如此,与机器学习算法不一样,这个问题通常要归结于认知偏差。
在过度拟合与拟合不足之间找到平衡点是数据科学中的经典问题,通常被认为悬而未决。有时候人们会用偏差–方差困境(bias-variance dilemma)来说明这个问题。想象一下,现在我们希望预测某些数据的性质。为此,我们可以收集大量配对例子。令D为这些配对例子的集合,Y为我们的预测。
现在假设D是一个随机的训练集。我们会得到的均方误差是这个公式可以写成“误差平方等于偏差平方加上方差”。也就是说,误差可以分解为两部分。首先,第一部分误差来自算法平均而言在预测上的不准确度,这就是偏差;然后,另一部分误差来自不同训练集之间差异导致的预测浮动,这就是方差。
于是,拟合不足对应的情况是使用的学习算法过于刻板,无法很好地适应数据,因此导致预测中的偏差。
要解决拟合不足的问题,最简单的办法通常就是增加学习算法的复杂度。一般来说我们可以增加参数的数目,然而,这样就会有过度拟合的风险。过度拟合就是过分贴近数据,因此训练集抽样中的随机因素对其影响过大。要避免这样的浮动,适当的做法是减少参数的数目。问题在于,要先验地得出合适的拟合程度是个棘手的问题,因为这似乎属于数据本身的内在性质。
在实践中,数据科学家会使用交叉验证的方法。
对最优秀模型的搜索被分成两个阶段。首先,我们考虑那些复杂度不超过某个水平的模型,一般来说就是那些拥有至多p个参数的模型,然后我们在其中选择能最好地解释训练集的模型。接下来我们会计算选出的模型在另一组被称为“测试集”的数据上表现如何。所谓的交叉验证,就是优化这个复杂程度p。首先从非常小的p值开始,这时我们暂时处于拟合不足的区域中,考虑的那些模型过于死板,无法对数据进行解释。
当p增加时,算法在测试集上的表现会越来越好。这并不令人意外,因为我们允许模型拥有更大的灵活性。然而这种表现的上升在某一点处会停止,我们在这里就进入了过度拟合的区域。尽管最优秀的模型在训练集上的表现越来越好,但它在测试集上的表现自此之后却会降低。找到使这种转变发生的p值正是对抗过度拟合这一危险的最好的方法之一。
交叉验证中的p值就是数据科学家所说的“超参数”(hyperparameter),与之相对的是模型在交叉验证第一步中被优化的那些参数。
但是交叉验证也有局限性。比如说,它假设测试集只会被用于测试模型的超参数。但通常发生的情况是某个测试集被用来测试大量不同的学习模型,ImageNet、CIFAR、MNIST等机器学习比赛就是这样的情况。这样的话,测试集就变成了某种意义上的训练集。于是人们有可能会过度拟合测试集。
1996年,统计学家罗伯特·蒂布斯兰尼有了一个新想法,他引入了另一个超参数来调整线性回归。线性回归可能是科学中最常用的技巧。早在18世纪末,博斯科维克、拉普拉斯、勒让德和高斯就已经定义了这种拟合法,并将其用于消除天体测量误差以及在这种误差存在的情况下进行预测。
线性回归的作用之一,就是让我们能够通过p个潜在的原因来解释某个感兴趣的变量。假设有N组抽样数据,当N比p大得多时,我们可以毫无问题地应用线性回归。然而在遗传学等诸多问题之中情况就反过来了,潜在原因的数目p大于抽样大小N。这时,高维线性回归就是个非常糟糕的主意了,因为它必然会导致严重的过度拟合。
蒂布斯兰尼提出,可以测量线性回归的复杂度并惩罚过高的复杂度。比如说,如果某个牵涉大量潜在原因的线性回归结果要被保留下来,那么它对数据的解释就必须远远优于那些牵涉潜在原因数量更少的线性回归结果。这一原则的提出催生了所谓的LASSO回归。LASSO回归用到的技巧之后被推广并应用到机器学习的众多问题之中,我们将这些应用统称为正则化(regularisation)。
让我们的大脑皮层以及其中大量神经元部分避免过度拟合的也许就是某种形式的正则化。毕竟,我们会活大约80年,但我们的大脑包含大约1000亿个神经连接,过度拟合的风险非常大。然而,正则化可以让我们根据抽样来调整模型的拟合程度。正则化技巧已经在实践中无数次证明了它们大有用处,这些技巧已经成为数据分析中不可或缺的工具,无论分析手段是线性回归、线性分类还是神经网络。然而正则化也有其神秘之处。
为什么它可以作为迈向最优解释的重要向导?统计学习基本定理对这个问题给出的回答还很不完全。更好的解答提示来自稳健优化(robust optimization)。
稳健优化的动机来自下面的观察:所有数据中都埋藏着不准确性甚至错误。在机器学习中,我们会说数据中有噪声。因此,所有通过优化得到的解答都必定只有在面对带有错误的数据时才是最优的。在面对正确的数据时,这些解答甚至可能完全不合适。
为了在数据存在噪声时仍然得到足够高效的解答,稳健优化首先会识别出一个不确定性集合,其构造方式能使实际数据以非常高的概率处于这个不确定性集合之中。然后稳健优化会选择一个对于不确定性集合中所有可能数据都有效的解答。更厉害的是,即使面对不确定性集合中最糟糕的数据,稳健优化也可以选择最合适的解答。它优化的是最坏的情况。
令人惊讶的是,强调测量数据的不准确性可以让我们解释神经元经常不正常工作的有用之处。神经元欠缺稳定性实际上可能是一张王牌,而不是天生的缺陷。当某个神经元运行出错时,它会扰乱信号,就好像是有人为了在原始数据中加入不确定性而稍微改变了数据集那样。在一次又一次细化自身对于这个世界的模型后,我们的大脑会因此探索到各种不同的不确定性并为其做出调整,而不是配合只包含一开始那种噪声的数据。
此外,目前许多深度学习的使用者也用到了这个技巧。他们利用人工神经元网络来发现不同的模型,用于解释一些庞大的数据库。这些使用者会在不同的时刻随机关闭一小部分神经元,然后在这种情况下测试神经网络的功能。这种技巧又被称为随机失活(dropout)。人们发现它是对抗过度拟合的一种无比强大的手段。
正则化与稳健优化都可以用于对抗过度拟合,但这两种技巧之间有什么联系呢?实际上它们是等价的。在众多问题中,我们可以证明,所有通过正则化得到的解答都可以通过先选择某个不确定性集合然后再对其应用稳健优化得到。反过来说,给定某个不确定性集合,我们通常可以确定与其等价的正则化。也就是说,我们可以将正则化看成某种处理数据噪声的方法,以此解释它的有效性。
但还有更厉害的方法,比这厉害得多。
我们可以用贝叶斯方法解决过度拟合。我们可以用贝叶斯主义的术语来自然地解释正则化。回想一下通过对数翻译到加法领域中的贝叶斯公式,它可以写成:机器学习与稳健优化中的方法一般就是在给定数据的前提下选择最可信的理论。这一理论又被称为最大后验(maximum a posteriori,以下简称MAP)模型,它能使p最大化,也就等价于使L最大化。
这时,L这个量并不重要,因为它与p无关。因此,计算MAP模型相当于求出L的最大值。在这两项中,第一项是似然度的对数,衡量的是理论或模型解释数据的能力,而第二项是先验概率的对数。
这个先验概率相当于可以用于正则化的一项。更神奇的是,不同参数的先验概率之和为1这个要求会让我希望参数遵循的概率分布满足某些性质,即当参数值变大时,相应概率应该呈指数递减,趋向于0。这就变成了某些常用的正则化方法!正则化因此可以被看作贝叶斯公式的推论!
更妙的是,无论是在不确定性集合还是在正则化中,所有看似随意的超参数实际上都证明了在寻找可信模型时先验置信度的不可避免性——或者说有效性!正则化很有用,因为它会迫使我们引入偏见。然而我们之前已经看到,偏见正是理性的支柱之一。
但纯粹贝叶斯主义者会在正则化与稳健优化的应用方法中看到欠缺之处。大部分机器学习算法最终会得出唯一一个模型,只会选择唯一一个理论。
然而,集成学习或者自助投票等方法引导我们将不同的机器学习算法结合起来,尤其是可以利用Adaboost等技巧。这是因为,这些方法说明如果在优秀理论之间取平均值的话,通常得到的结果要比其中最优秀的理论还要好,因为这是对抗过度拟合的绝佳办法。互不相容的模型组成的森林要比其中每一棵树更睿智。
举个例子,当网飞(Netflix)举办奖金为100万美元的机器学习大赛时,最优秀的胜利者考虑了800个不同模型的平均值!然而,计算最优秀模型的平均值正是贝叶斯公式的要求!
许多研究人员已经意识到了这一点。
例如在2016年,亚林·加尔发表了他的博士论文《深度学习中的不确定性》(“Uncertainty in Deep Learning”),加尔在其中证明了机器学习中的大量常用技巧都可以用贝叶斯主义的语言重新诠释。我们刚才说到的随机失活正是这种情况!这是因为每一组失活神经元都对应着一个模型。因此,整个神经网络的预测可以通过取不同模型预测的平均值得到,其中每一个模型都可以由一组失活神经元得出。
甚至有一个定理强调了偏见的重要性:“没有免费午餐”定理。简单地说,这个定理断言不存在最好的机器学习算法。更准确地说,无论你用什么办法来选择模型,都存在这样的问题,你的方法会在这种问题上面被其他方法超越,而这些其他方法一般会利用适当的先验置信度。与“没有免费午餐”定理互补的另一定理关心的则是统计决策论中贝叶斯推断的可容许性。
想象一下,现在有某一项你不知道的基础信息θ,但你接收到了与θ相关A的一项信息X。现在你必须做出一项决策,而这项决策的效果取决于θ。当然,你的决策可以与θ相关。你现在还是不知道θ是什么,但我假设如果θ是已知的,你就会知道什么样的信息X在等着你。你应该做出什么决策?
在贝叶斯式的方法中,你首先会注意到自己知道θ是多少。然而,你不知道θ的值。怎么办?当然要利用偏见!贝叶斯主义者会考虑某个先验置信度P(θ),然后进行贝叶斯推断来确定θ的值。现在他既然知道了θ可能的值,就可以最优化自己的决策了。
贝叶斯推断可容许性定理正是如此断言的,无论你的决策机制如何,无论贝叶斯主义者的偏见是什么,都存在未知信息θ的某个取值,使得贝叶斯主义者会得到比你更好的结果。因此我们说贝叶斯主义的方法是可容许的。当然,这不是在说这个方法比你的方法更好,这都要取决于θ的值。
但这个可容许性定理最令人着迷的并不是这个方面。它同样证明了,在某些合理的额外假设下,无论你采用什么决策机制,都存在某位持有特定偏见P(θ)的贝叶斯主义者,无论θ取什么值,他的决策至少跟你的一样好,甚至比你的更好!换句话说,所有可容许的决策机制组成的集合正是所有贝叶斯方法组成的集合。所有非贝叶斯的替代方案都会处处劣于某个贝叶斯方法!
我们最后来到我对贝叶斯公式的沉思中最为愉悦的时刻之一。我在午饭时间走进了瑞士洛桑联邦理工学院的同事的办公室,两位同事当时正在讨论奥卡姆学习这个概念,它与奥卡姆剃刀关系密切。于是我开始思考奥卡姆剃刀的贝叶斯诠释问题。贝叶斯公式有没有可能蕴含了奥卡姆剃刀?
考虑用于描述理论的某个语言,这个语言可以是法语、数理逻辑或者计算机编程语言。于是,每个理论都可以用这个语言中的(可能非常长的)一句话来描述,即由该语言的符号组成的有限序列。令L为所有可以用k个符号组成的句子描述的理论组成的集合。为了与贝叶斯主义相容,这些理论的先验置信度应令L个符号对应的所有理论的总和置信度P(L)对于所有k的总和等于1。也就是说,贝叶斯主义要求以下条件必须成立:
P(L) > 0
但是,每个P(L)的值都是正数,这里有无数个这样的值。于是,无穷级数理论告诉我们,如果这些正数项的无穷求和是有限的,那么这个求和中的每一项P(L)必然随着k的增大变得任意小。这个想法突然划过我的脑海,我立刻凑近白板,写下了这个公式相当于说需要更多符号来描述的理论会拥有更低的先验置信度!贝叶斯公式蕴含了奥卡姆剃刀!
贝叶斯公式甚至能走得更远,向我们精确指出了拥有更长描述的理论在何种程度上更不可信。这是因为k个符号对应的理论总数会随着k指数增长,从中我们可以得出某个需要k个符号来描述的理论,它的先验置信度会随着k指数下降!换句话说,更复杂的理论因此并不只是置信度更低,而是置信度会指数下降!
我被这个甘美的发现慑服了——而我当时还没有遇到所罗门诺夫妖。这个发现不仅巩固了贝叶斯公式,而且让我们揭开了奥卡姆剃刀能被广泛接受的秘密。对于纯粹贝叶斯主义者来说,奥卡姆剃刀并不是需要努力接受的哲学原则,而是贝叶斯范式中的一个数学定理。