揭秘认知图谱！从多跳阅读理解问答开始

“机器的阅读理解与问答”一直以来被认为是“自然语言理解（NLU）”的核心问题之一，随着BERT等模型的兴起，单段落的简单阅读理解任务取得了重大突破；研究者将目光转向更能体现机器智能的“多跳”“复杂”情形。

本篇论文介绍了基于认知中“双过程理论（dual process theory）”的CogQA模型，文章提出一种新颖的迭代框架：算法模拟认知学中人类的两个认知系统，并维护一张认知图谱（Cognitive Graph），系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量，系统二利用图神经网络在认知图谱上进行推理计算。

文章在HotpotQA全维基百科数据集上持续占据第一近三个月之久，直到文章在被ACL高分接收后公开。

假设你手边有一个维基百科的搜索引擎，可以用来获取实体对应的文本段落，那么如何来回答下面这个复杂的问题呢？“谁是某部在2003年取景于洛杉矶Quality cafe的电影的导演？

”很自然地，我们将会从例如Quality cafe这样的“相关实体”入手，通过维基百科查询相关介绍，并在其中讲到好莱坞电影的时候迅速定位到“Old School”“Gone in 60 Seconds”这两部电影，通过继续查询两部电影相关的介绍，我们找到他们的导演。

最后一步是判断到底是哪位导演，这需要我们自己分析句子的语意和限定词，在了解到电影是2003年之后，我们可以做出最后判断——Todd Phillips是我们想要的答案。

事实上，“快速将注意力定位到相关实体”和“分析句子语意进行推断”是两种不同的思维过程。

在认知学里，著名的“双过程理论（dual process theory）”认为，人的认知分为两个系统，系统一（System 1）是基于直觉的、无知觉的思考系统，其运作依赖于经验和关联；而系统二（System 2）则是人类特有的逻辑推理能力，此系统利用工作记忆（working memory）中的知识进行慢速但是可靠的逻辑推理，系统二是显式的，需要意识控制的，是人类高级智能的体现。

多跳阅读理解的挑战在于，自从BERT横空出世，单文本阅读理解问答的基准数据集SQuAD很快超过人类水平，但是同时，大家也在反思这些模型是否真的能够做到阅读“理解”。

在2018年Percy Liang等人的文章中，他们展现了一个有趣的例子：原文为“In January 1880, two of Tesla's uncles put together enough money to help him leave Gospić for Prague where he was to study.”问题为“What city did Tesla move to in 1880?”大多数模型都能轻松回答对“Prague”。

然而，一旦我们在原文后面增加一句“Tadakatsumoved to the city of Chicago in 1881.”则这些模型将会以很高的置信度回答“Chicago”——这仅仅是由于这句的形式与问题特别像，即使关键的信息都对不上。

这很像我们刚才举的卡片的例子（Wason Selection Test），也暗示了之前的基于深度学习的NLP模型，主要类似于认知中的系统一，我们如果要进一步进行推理，就必须考虑系统二。

CogQA文章认为，这样的方法在多跳问答中存在“短视检索”的问题，即后几跳的文本和问题的相关性很低，很难被直接检索到，导致了效果不佳。

在该文章提出一种新颖的迭代框架：算法使用两个系统来维护一张认知图谱（Cognitive Graph），系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量，系统二利用图神经网络在认知图谱上进行推理计算。正如之前提到的，人类的系统一是无知觉(unconscious)，CogQA中的系统一也是流行的NLP黑盒模型，例如BERT。

在文章的实现中，系统一的输入分为三部分：问题本身、从前面段落中找到的“线索(clues)”、关于某个实体x(例如x=上文中的电影《old school》)的维基百科文档。系统一的目标是抽取文档中的“下一跳实体名称(hop span)”和“答案候选(ans span)”。

比如上文例子中，从“quality cafe”的段落中抽取电影“old school”和“Gone in 60 seconds”作为下一跳的实体名称，在“old school”的段落中抽取其导演“Todd Phillips”作为答案候选之一。这些抽取的到的实体和答案候选将作为节点添加到认知图谱中。此外，系统一还将计算当前实体 x 的语意向量，这将在系统二中用作关系推理的初始值。

文章使用了CMU、Stanford和Montréal大学共同提出的HotpotQA数据集，语料范围是全维基百科。HotpotQA的每个问题都涉及多个文本，并且不仅要求模型输出答案，而且要输出支持信息所在的句子，只有当答案和支持句都判断正确才被认为是正确的。CogQA显著超过了之前的方法和同时期的其他模型。

值得一提的是，由于作者发现之前baseline的检索部分方法有一定缺陷，为了排除检索部分的影响，还优化了其检索效果再比较（Yang et al.(2018)-IR）。如果将问题按照提问类型分类，CogQA的效果随着必需跳数的增加而变好。除了效果的提升，案例分析中的认知图谱也表明了其可解释性方面的优越性。

在图灵奖得主Judea Pearl的新作《The Book of Why》中，他强调了图结构在认知和智能中的重要地位——智能不能拘泥于统计，更应该注重因果与逻辑链条，而后者则与图结构密不可分。认知图谱（Cognitive Graph）则是图结构在问答问题上的一次有意义的尝试，BERT、XLNet这样的预训练模型是否是认知理论中“系统一”的最终答案？

图结构到底应该怎样服务于“系统二”的推理呢，比如如果能够对超长的文本进行注意力（attention）机制，那么象征着因果和逻辑的结构信息究竟是否必要？自然语言处理正处在一个蓬勃发展的时期，希望这篇文章可以给大家更多的思考。