GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training

图表示学习目前受到了广泛关注，但目前绝大多数的图表示学习方法都是针对特定领域的图进行学习和建模，所产出的图神经网络难以迁移。近期，预训练在多个领域都取得了巨大的成功，显著地提升了模型在各大下游任务的表现。受到BERT (Devlin et al., 2018)，MoCo (He et al., 2020) 等工作的启发，我们开始研究图神经网络的预训练，希望能够从中学习到通用的图拓扑结构特征。

我们提出了Graph Contrastive Coding的图神经网络预训练框架，利用对比学习（Contrastive Learning）的方法学习到内在的可迁移的图结构信息。本工作GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training 已被 KDD 2020 research track 录用。

传统的图表示学习主要参考NLP的基于skip-gram词表示学习方法，如DeepWalk，LINE，node2Vec，metapath2vec等。这些方法主要针对节点的邻居相似性（neighborhood similarity）进行建模。具体来说，网络中距离比较近的节点会被认为比较相似；此外，这类方法得到的表示往往缺乏通用性，局限于训练使用的特定网络。

而我们提出的GCC则关注结构相似性（structural similarity），我们希望两个局部结构相似的节点拥有相近的表示，并且我们希望学习得到的表征可以迁移到不同的网络上，具有通用性。

GCC可以应用于许多下游的图学习任务。我们探索了其在节点分类、图分类和相似搜索中的应用。

具体来说，在节点分类任务中，我们可以使用GCC的预训练好的编码器（encoder）对节点的r-ego network或者一个采样得到的子图进行编码；在图分类任务中，我们可以直接使用GCC的编码器对输入的图直接进行编码；而在相似搜索中，我们想要衡量两个节点的结构相似度，我们可以使用GCC的编码器分别对两个节点的r-ego network（或者采样得到的子图）进行编码，然后计算编码后的距离作为相似度。

实验结果分别如下：节点分类，图分类，相似搜索。从实验结果不难看出，GCC在多个任务多个数据集上都取得了比较突出的表现，和现有最优模型相比能够取得更优或相近的表现。这也表现了GCC的有效性。

综上所述，本文提出的GCC的图神经网络预训练框架利用对比学习的方法，有效地学习了图结构的通用表征征，并且学习到图的结构化信息，可以迁移到各类下游任务和各类图中。实验表明了该方法的有效性。未来我们会在更多的任务和实验上进行实验，并探索GCC在其他领域的应用。