知识图谱从哪里来：实体关系抽取的现状与未来

最近几年深度学习引发的人工智能浪潮席卷全球，在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下，深度学习深入影响了自然语言处理的各个方向，极大推动了自然语言处理的发展。来到2019年的今天，深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言，要做到精细深度的语义理解，单纯依靠数据标注与算力投入无法解决本质问题。

如果没有先验知识的支持，“中国的乒乓球谁都打不过”与“中国的足球谁都打不过”，在计算机看来语义上并没有巨大差异，而实际上两句中的“打不过”意思正好相反。因此，融入知识来进行知识指导的自然语言处理，是通向精细而深度的语言理解的必由之路。然而，这些知识又从哪里来呢？这就涉及到人工智能的一个关键研究问题——知识获取。

现有大型知识图谱，诸如Wikidata、Yago、DBpedia，富含海量世界知识，并以结构化形式存储。如下图所示，每个节点代表现实世界中的某个实体，它们的连边上标记实体间的关系。这样，美国作家马克·吐温的相关知识就以结构化的形式记录下来。目前，这些结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中。但与现实世界快速增长的知识量相比，知识图谱覆盖度仍力有未逮。

由于知识规模巨大而人工标注昂贵，这些新知识单靠人力标注添加几无可能完成。为了尽可能及时准确地为知识图谱增添更加丰富的世界知识，研究者们努力探索高效自动获取世界知识的办法，即实体关系抽取技术。

实体关系抽取是一个经典任务，在过去的20多年里都有持续研究开展，特征工程、核方法、图模型曾被广泛应用其中，取得了一些阶段性的成果。随着深度学习时代来临，神经网络模型则为实体关系抽取带来了新的突破。

神经网络关系抽取需要大量的训练数据，但是人工标注这些训练数据非常费时昂贵。为了自动获取更多的训练数据训练模型，工作[16]提出了远程监督（Distant Supervision）的思想，将纯文本与现有知识图谱进行对齐，能够自动标注大规模训练数据。远程监督的思想并不复杂，具体来说：如果两个实体在知识图谱中被标记为某个关系，那么我们就认为同时包含这两个实体的所有句子也在表达这种关系。

再以（清华大学，位于，北京）为例，我们会把同时包含“清华大学”和“北京”两个实体的所有句子，都视为“位于”这个关系的训练样例。

总结来说，已有对远程监督的降噪方法可以兼顾了关系抽取的鲁棒性与有效性，也具有较强的可操作性和实用性。不过，使用已有知识图谱对齐文本来获取数据训练关系抽取模型，再利用该模型来抽取知识加入知识图谱，本身就有一种鸡生蛋与蛋生鸡的味道。

不完善的知识图谱对齐所得到的文本训练数据也将是不完善的，对那些长尾知识而言，仍难以通过这种远程监督机制来得到训练实例。如何提出更有效的机制来高效获取高质量、高覆盖、高平衡的训练数据，仍然是一个值得深入思考的问题。

为了更及时地扩展知识图谱，自动从海量数据中获取新的世界知识已成为必由之路。以实体关系抽取为代表的知识获取技术已经取得了一些成果，特别是近年来深度学习模型极大地推动了关系抽取的发展。

但是，与实际场景的关系抽取复杂挑战的需求相比，现有技术仍有较大的局限性。我们亟需从实际场景需求出发，解决训练数据获取、少次学习能力、复杂文本语境、开放关系建模等挑战问题，建立有效而鲁棒的关系抽取系统，这也是实体关系抽取任务需要继续努力的方向。