网络实体对齐是指给定两个网络,把两个网络中等价的实体合并。实体对齐在很多领域都有重要应用,比如,跨平台社交网络的用户对齐可以用于用户画像、用户兴趣挖掘,跨语言知识图谱的实体对齐可以辅助机器翻译、跨语言信息检索。传统的方法在做实体对齐任务时主要有两种思路。一种是基于实体的标签信息,例如社交网络的用户昵称、知识图谱的实体名称。
另一种思路是基于人工定义特征,例如知识图谱中两个实体的类别是否一致、社交网络中两个用户的公共邻居有多少。近几年,基于嵌入表示学习的方法越来越多地受到关注,给定一个网络,嵌入表示学习可以把实体映射为低维向量空间中的一个点。其中,知识图谱领域以TransE为代表,社交网络领域以Deepwalk为代表,这两种方法都是受到词嵌入的Skip-gram模型的启发而产生的。
基于嵌入表示的对齐模型在最开始提出的时候基本上遵循两种思路,这两种思路都基于单一网络的嵌入表示。第一种思路是把一些预先匹配好的实体合并,从而把两个网络合并为一个网络,进而用单一网络的嵌入表示进行嵌入。第二种思路是先用单一网络的嵌入模型分别训练两个网络,然后用一些预先匹配好的实体训练一个线性变换对齐两个向量空间。此后,在这些方法的基础上研究者开始改进对齐效果。改进分为两个方向:首先是迭代。
其次是结合属性信息。再近一些,2019年可以说是对齐任务模型爆炸增长的一年,新的方向和思路层出不穷,主要分为以下四个:无监督对齐、多视角嵌入、改进现有嵌入表示模型并用于对齐、超大规模对齐。