许多大规模知识图谱将知识组织成两个视图:以抽象概念和常识概念组成的本体视图,和以本体概念实例化的特定实体组成的实例视图。
现有的知识图谱表示方法仅侧重于其中一个视角下的知识表示,JOIE使用跨视图关联模型(Cross-view Association Model)和内部视图模型(Intra-view Model)对知识图谱进行多方面的表示学习,得到的嵌入表示具备(1)本体视图和实例视图各自的知识结构,和(2)本体视图自身与实例间的层次结构。
许多大规模知识图谱都具备两个视图下的知识:以抽象概念(例如:Person、Artist)及概念间关系(例如:isA、livesIn)组成的本体视图,和以实例(例如:Barack Obama)与实例间关系(例如:has_award)组成的实例视图。
当前的知识表示方法大多只对两个视图中的一个进行了设计,而同时对两个视图的知识进行建模则有利于:(1)保留实例表示的丰富信息;(2)概念对实例的高度概括性,利于对极少被观察到的实例进行分类。
但联合考虑实例与概念也会带来如下挑战:(1)实例与概念、关系(实例间关系)与元关系(概念间关系)往往在词形上有很大差异但又存在语义相关,使得现有方法难以同时对次进行建模;(2)现有的实例与概念间的上下位关系(isA)就实例规模而言是很少的,而链接两个视图最重要的就是isA关系;(3)实例视图的规模比概念规模要大很多,且概念间存在层次结构。
针对以上挑战,作者提出使用跨视图关联模型(Cross-view Association Model)和内部视图模型(Intra-view Model)对知识图谱进行多方面的表示学习方法JOIE。跨视图关联模型注重将实例与概念进行关联,内部视图模型则注重实例视图内部的实例、本体视图内部的概念各自的结构学习。实验分析方面,由于现有方法大多只关注对一个视图的知识建模,缺少融合两个视图特点的公开评测数据。
所以作者从YAGO和DBpedia构建了两个更符合真实知识图谱结构的数据集YAGO26K-906和DB111K-174。数据集的相关信息统计如下:作者使用如上所述的数据集在知识图谱补全(KG Triple Completion)和实体分类(Entity Typing)两个任务上对JOIE的性能进行了评测。