图神经网络(Graph Neural Networks, GNN)由于可以高效地对节点邻域特征进行表达,在众多领域中取得了显著成果。虽然图神经网络可以聚合邻域内的节点特征,但对于邻域内的子结构特征(例如 graphlets 等高阶的结构模式),仍然无法高效提取和表征。而此类结构特征(structural patterns)在社交网络、生物网络、分子网络等信息网络中具有很强的预测能力。
由于现实网络中节点的复杂性,节点邻域会包含许多不同种类的节点,因而其中的高阶结构模式往往只能在其分布上体现差异。据此,本文提出一种图结构主题神经网络模型(GraphSTONE)。GraphSTONE 首先借鉴融合自然语言处理中的主题模型(Topic Models),来刻画此类高阶结构模式在分布上的差异。
本文从理论上分析了在图网络学习子结构主题分布的合理性,并提出针对子结构分布自适应的图神经网络以高效利用此类结构信息。针对现实网络子结构的复杂性,我们设计了锚结构(Anchor)选择算法,以筛选网络中有代表性的结构特征,从而降低表征复杂度和噪声干扰。我们在现实数据和仿真网络中进行了实验。在仿真数据中,GraphSTONE 能够很好表征并区分不同的子结构模式,并学习到子结构的关键性分布。
在学术网络、蛋白质网络等现实数据上,GraphSTONE 相比传统方法,在无特征链接重构和节点分类任务下能够获得 10% 以上显著提升,在有特征情况下总体表现最佳。此外,GraphSTONE 运行效率高,所需时间与 GCN 相近。