随着大数据关联分析和深度学习等工具的流行,我们变得越来越少谈论因果。在大多数时候,我们将输入的数据一股脑“喂”进装着神经网络的黑匣子的一端,在黑匣子外面,我们只能听到神经网络的“咀嚼声”,然后就是从另一端落下来的预测结果。
在少数更好的场景中,我们可以讨论两个或者多个变量之间的关联。至于因果,则是一件公认的危险玩意儿,我们一般缄口不谈,即便谈到了,也是晦涩审慎,在它身边堆满了“暗示”“可能”“潜在”等还没有上战场就已经举白旗的投降词汇。这是因为,我们缺乏一套在数学上可靠且行之有效地处理因果的方法和工具。
可以说,在很长一个阶段,人类的科学史甚至整个思想史,都是因果推出因果、因果战胜因果的历史。复杂系统进入科学视野,第一次从根本上挑战了传统的因果方法,因为第一性原理和还原论方法,显然无法刻画包含多个异质个体复杂相互作用且充满不确定性的生物系统和人类系统——牛顿力学可以让火箭上天,但却对上下班高峰期的交通拥堵无能为力。
当我们试图将真实复杂系统简化成一个仿真模拟的系统时,我们所秉承的还是因果的方法(机制模型),但当系统复杂到无法仿真而只能通过分析观察数据窥探天机时,因果方法就力不从心了。基于复杂系统的真实数据,采用暴力的关联分析方法(例如回归分析)和预测算法(例如深度学习),我们可以观察到数据之间的关联,还能得到“相当可信”的预测结果。
这些暴力的手段一度让我们迷失,各种各样的数据拟合方法和黑匣子预测机器成了学术界的新宠,以至于10年前英国学者迈尔-舍恩伯格在具有全球影响力的大数据时代:生活、工作与思维的大变革》一书中呐喊“大数据时代需要放弃对于因果关系的渴望,而只需关注相关关系”。
这种倾向性是非常危险的,我在上述一书的序中曾说,“认为相关重于因果,是某些有代表性的大数据分析手段里面内禀的实用主义的魅影,绝非大数据自身的诉求”“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势”。