本文提出了一个新的端到端问答(QA)模型,该模型通过结合不完整知识库的信息与一些文本检索信息,获得相关问题的答案。模型基于这样的假设:结构化知识库更容易查询以及从中获取的知识有助于非结构化文本的理解运用。模型首先从与问题相关的知识库子图中收集相关实体的知识,然后在隐空间中重述问题,用已获得的实体知识进一步阅读检索文档文本,最终聚合知识库中和文本中的证据信息来预测问题答案。
模型数据集来源于WebQSP,论文中模型实现了以下目标,在不完整度不同的知识库条件下,稳定提升了对此QA任务的效果。
知识库通常被看作问答系统的必要信息源,但是准确而完整的知识库的构建常常花费大量人力物力,面向开放领域的问答需要更多知识库的支持,而这些知识库往往不够完整。另外,互联网上大量非结构化文本可以很好的囊括所需的跨领域知识。因此,结合知识库与文本信息可以直接提高知识库信息的完整度。论文提出的端到端模型便是基于非完整的知识库与非结构化文本的聚合进而提升问答系统答案的准确预测。
为了建立一个可扩展的系统,该模型参考了Sun等提出的方法并且只考虑一个子图对应一个问题的情况。子图由问题中主题实体利用PageRank算法而得到,文档集由现有的文档获取器得到,文档中实体进行注释并与知识库实体进行链接,对于每个问题,模型将从包含所有知识库及文档实体的候选集中产生答案。模型组成主要有两个部分,基于图注意力的知识图谱阅读器和基于知识的文本阅读器。两者之间的联系如下:
数据集:该实验基于WebQSP数据集。Baseline和评估标准:通过结果表格对比发现,该模型阅读器达到的效果要优于baseline方法结果。SGReader+KAReader明显效果更好。
该论文提出了一种新的QA模型,该模型通过结合信息不完整的知识库和文本文档来回答开放领域的问题,与以前的方法相比,该模型在知识库信息不完整的情况下,稳定提升了对WebQSP数据集的测试效果。
结果表明:(1)利用图注意力机制技术,可以在对知识库子图遍历一次的条件下,高效、准确地为知识库中的每个实体聚合问题相关的知识;(2)论文中设计的门控制机制在处理文本文档时可以成功地糅合已编码的实体知识。在未来的工作中,作者提出将把这个想法扩展到其他具有多模态证据信息的QA任务中。