异构图神经网络到底哪家强?清华、微软、阿里、中科院等推出HGB基准!

来源: 学术头条

发布日期: 2021-11-09 16:00:00

清华、微软、阿里、中科院等单位在KDD上推出Heterogenous Graph Benchmark(HGB)和强基线方法Simple-HGN,旨在推动异构图神经网络领域的公平比较和发展。HGB横跨三大任务11个数据集,提供了一个统一的测评基准,并设计了强大的新基线模型Simple-HGN。

异构图在工业界的诸多场景有着广泛的应用,随着图神经网络的兴起,许多异构图神经网络也如雨后春笋般涌现出来。然而由于缺乏有效的基准数据集,很多工作难以公平比较。今年KDD上,来自清华、微软、阿里、中科院、宾大等单位的合作者共同推出Heterogenous Graph Benchmark(HGB)和强基线方法Simple-HGN,希望可以推动该领域更快更健康地发展。

如果你是数据挖掘领域的研究者或者算法工程师,那么你对“异构图(Heterogenous Graph)”或者“异构信息网络(Heterogenous Information Network)”已经并不陌生。简单地说,与一般的(同构)图不同,异构图中的点和边分为不同类型,甚至带有不同种类的信息。随着以GCN为代表的图神经网络在近几年“爆火”,越来越多的人将目光转向了异构图神经网络。

然而令人遗憾的是,异构图往往和目标数据高度耦合,许多工作使用了完全不同的数据集,或者在相同数据集上设定不同,这使得他们难以相互比较。那么,异构图神经网络到底哪家强?今年一篇KDD的文章里,来自清华的唐杰组、微软研究院的东昱晓、阿里巴巴达摩院的周畅以及来自中科院和宾大的研究者一起仔细测评了每一种模型。

随着同构图领域OGB基准的推出,图神经网络有了一决高下的舞台;文章也推出了横跨三大任务11个数据集的异构图领域的基准Heterogenous Graph Benchmark(HGB)和强基线方法Simple-HGN。

文章的作者们首先对现有的异构图神经网络进行了详尽的分析,现有的工作大多数都是开源的,然而由于缺乏统一的测评基准,一些实现的小问题难以被发现,基线方法很多时候也没有被充分调优。

HGB收集了在3个任务上共收集了11个中等规模异构图数据集,三个任务分别是节点分类、链接预测、基于知识图谱的推荐。为了真正凸显图神经网络结构的影响,排除其他的因素的干扰,HGB的测评流程中将模型训练分为三个部分:特征预处理、图神经网络、下游任务的解码器和损失函数。

研究者将消融实验中发现的最简单有效的两种手段:异构信息注意力和隐含层L2正则化加到经典同构方法GAT上,并且加入了来自于NLP模型Realformer的注意力残差机制,成功设计了一种在HGB上表现超过之前所有模型的强大新基线Simple-HGN。

文章作者已经将所有代码整合并开源到了https://github.com/THUDM/HGB,并且提供了Simple-HGN基于流行图神经网络框架DGL和CogDL的实现。

鉴于Simple-HGN并不难的设计却能在HGB的11项任务上有很好的提升,异构图神经网络领域仍然有巨大的上升空间;文章还指出,在图神经网络时代,元路径是否还有用,要怎么用,都是非常值得探究的问题,希望后续在HGB上刷榜的模型可以给我们带来更多的启示。

UUID: 8be08357-4f61-4c9e-a3e2-571dabad0d1d

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/学术头条_2021-11-09_(KDD'21) 异构图神经网络到底哪家强?清华、微软、阿里、中科院等推出HGB基准!.txt

是否为广告: 否

处理费用: 0.0039 元