贝叶斯网络之父 Judea Pearl：新因果科学与数据科学、人工智能的思考

6月21日，图灵奖得主、贝叶斯网络之父 Judea Pearl 在第二届北京智源大会上做了《新因果科学与数据科学、人工智能的思考》的报告。北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动，2019年举办了首届大会，今年为第二届。

Pearl 说我们现在正处在第二次数学科学革命，这一革命是以科学为中心的因果革命，相对于第一次以数据为中心的革命，第二次显得有些沉默，但威力同样巨大。Pearl 解释了因果科学为什么需要新的逻辑和新的推理机制，以及因果科学中新引擎的结构是什么。也对称之为“double-helix”两个因果推理的基本定理进行了交代；最后也给大家讲了基于因果智能的七种工具，以及这七种工具是如何给科学带来革命性变化。

今天给大家讲一下因果关系，先从两次数据科学的革命说起，第一次数据科学革命主要涉及大数据，包括机器学习、神经网络、深度学习以及它的应用，例如 Alpha-Go、语音识别、机器翻译、自动驾驶等等，尤其是自动驾驶，一直是媒体关注的焦点。显然，第一次数据科学革命以数据为中心。第二次数据科学革命实际上是因果科学革命，这次革命让数据走向了政策、解释、机制泛化，此革命的需要攀爬的最高峰是 Free Will。

第二次数据科学革命是以科学为中心，相对于第一次以数据为中心，第二次相对沉默了一些，一些新闻报道也鲜有关注。

这因果科学革命会引导我们走向什么境地呢？在这里，我引用哈佛大学的 Gary King 的一句话，“在过去的几十年里，人们对因果推理的了解比以前历史中的总和还要多”。这也意味着成百上千个原来认为是不可能的问题，现在可以使用简单的数学和的算法来解决。

简单介绍完两次数据科学革命，我介绍下这次演讲的大纲，首先讲一下什么是因果科学，为什么它需要新的逻辑和新的推理机制；然后介绍因果科学中新引擎的结构；再者，介绍一下因果推理的两个基本原理，我把这两个基本原理称之为“double-helix”；最后给大家讲讲基于因果智能的七种工具，以及这七个工具是如何给科学带来革命性变化。

所谓因果科学就是回答因果问题的逻辑和工具，如上图一些因果问题的典型例子：1、某项治疗对预防疾病的效果如何；2、新的税收优惠政策和营销活动哪个是导致销售额上升的原因；3、肥胖症每年造成的保健费用是多少；4、雇用记录能否证明雇主有性别歧视行为；5、我如果辞职了，会不会后悔？上面这五个问题，显然无法用现在标准的科学语言（如数学公式）进行回答。为什么呢？因为这些问题都包含着不对称信息。

毕竟“代数学科”从伽利略时代开始，就是专注于等式（完全对称的因果关系），即 y=ax 此类的表达式。而现实中，大多数问题，如上标黄的单词，预防、导致、归因、歧视、后悔等等都是含有不对称属性的。相对于“等号=”表示对称信息，那么我们也可用箭头 → 表示非对称信息。在过去30年中，我和我的同事做了非常多的工作，就是为了找到非对称的表达工具，在后面我也会介绍一些工具。

接下来，介绍推断引擎，此引擎一般有三个输入，包括我们想知道什么、我们已经知道什么以及有哪些数据是可以用的。此外，还有两个输出，分别是：待定干预的影响、“假设过去发生的事件未发生所造成的影响”等。推断引擎想要弄明白的是：一个是过去发生的事情，如果没有发生，它会产生什么样的结果；如果让一些事情不发生，这又会产生什么样的影响。例如，出现了地震我的房子垮掉了；不出现地震我的房子就不会垮掉了么？

上面这张 PPT 展示了因果关系的学习者必须熟练掌握至少三种不同层级的认知能力：观察能力（Seeing）、行动能力（Doing）和想象能力（Imagining）。

第一层级“关联”表示观察能力，指发现环境中规律的能力，例如一只猫头鹰观察到一只老鼠在活动，便开始推测老鼠下一刻可能出现的位置，这只猫头鹰所做的就是通过观察寻找规律；第二层级“干预”表示行动能力，指预测对环境刻意改变后的结果，并根据预测结果选择行为方案，例如是如果我做 X 这件事情，那么 y 会发生什么变化，一个具体的例子是如果我把香烟戒掉，那么得癌症的状况会发生什么变化；第三层级“反事实”表示想象能力，指想象并不存在的世界，并推测观察到的现象原因为何，例如为什么是 x 导致了 y，如果当时 x 没有发生，那么状况会是怎么样的，如果当时采取了其他措施，会发生什么？

具体的例子是：我吃了阿司匹林能治好了我的头痛吗？假如奥斯沃德没有刺杀肯尼迪，肯尼迪会活着吗？假如在过去的两年里我没有吸烟会怎样？

有了上面的引子，我们就可以引出因果推断的两个最主要的基础定律，第一个定律是更关于推断和反事实的，数学表达式为 Yx(u)=YM x（u）。

第一定律是说，潜在结果 Yx （u）可通过下述方法来推断：建构模型 Mx （确保删除所有指向 X 的箭头，例如 W1 和 x 之间的箭头，然后就得到一个残缺的模型，随后看看会发生什么样的变化），并计算结果 Y（u）。因果关系之梯第二层级和第三层级中的所有可估量都由此产生。简言之，将反事实简化为一个算法使我们得以在数学所允的范围内征服第三层级的一大片版图——当然，也不可能再多了。

第二个因果定律是关于条件独立法则，在模型中能够分离，可以推导出在分布相互独立的，其数学表达式如上画黄框所示：数据当中的条件独立性。我们现在已经有了很多的方法，可以对模型进行检验，看其是否和数据之间有兼容性。

接下来，我们将为大家介绍使用基于因果科学的新型代数方法可以做些什么。Tool 1：通过透明可测的方式对因果假设进行编码。这一点在前面的演讲中已经谈到过。

总的来说，透明指的是我们对因果假设的编码需要基于合理的事实或者概率依据，在必要时补充额外的假设。而可测指的是对因果假设的编码需要能在现有的计算条件下实现。Tool 2：预测行为和策略造成的效应（effect）。下面，我们用一个 Shrier 和 Platt 于 2008 年提出的运动医学领域的简单例子（热身对于运动损伤的影响）对此进行解释。

Tool 3：计算反事实并发现引发效应的原因（属性，解释，敏感性）。我们并不仅仅要知道某种原因能够造成怎样的结果，还要能够根据结果反推原因，进行归因分析。我们可以讨论属性、解释、敏感性（一个客户对于某种广告有多敏感，某个病人对某种治疗方案有多敏感，等等）。Tool 4：计算直接和间接的效应（中介传导分析，mediation）。这一工具现在也被用于判断「歧视」、「不公正的做法」、「不公平现象」。

我们要讨论人工智能和机器学习领域中的公平性问题时，我们必须考虑中介效应，我们通过反事实推理分析这种中介效应。Tool 5：融合多源数据，也即模型的泛化能力和数据融合。如何把不同的观测研究结果进行融合，尤其是你在一个地方开展了一个调查，那么在另外一个地方是否能够适用。以新冠肺炎为例，我们有来自中国、意大利等等各国不同的研究数据，那么怎么样把这些研究放到一起然后得出在美国应该采取什么样的措施。

Tool 6：恢复缺失的数据。所有的数据都会有缺失值，其实标准的数据缺失问题也需要借助因果建模来解决。我们可以形式化地定义利用不完整的数据恢复出因果和概率关系的条件，确定何时可以一致地估计利益关系（interest），从而使回复后的数据就像“没有数据丢失一样。”这也是我们说「数据缺失也是因果问题的原因。Tool 7：因果发现。

这个工具的重点是找出一系列的能够和数据相兼容的模式或者图表，同时能够有一些“紧凑”的方式来表达出数据，从而能够回答一些因果问题。

最后总结一下，我认为因果革命正从研究蔓延到教育和应用等领域。而虽然说人们正在关注的是数据，但也正在慢慢转向科学。尤其是在社会智能领域，因果科学会和 AI 有个亲密的、有意义的交流互动。因果革命虽然还未到达高潮，但我们正在经历！我们相信在不久的将来会一场声势浩大的革命。