图数据的攻与防：智谱 AI 和 biendata 联合组织 KDD Cup 2020

由智谱 AI 和数据竞赛平台 biendata 联合组织的 KDD Cup 2020 目前已经全面展开。本次比赛采用了创新的赛题和赛制，主题为图数据的攻防。本次比赛奖金 2 万美元。KDD Cup 由 ACM SIGKDD 主办，是全世界影响力最大的数据竞赛，有“数据世界杯”之称。

今年的 KDD Cup 是智谱 AI 第一次参与 KDD Cup，也是 biendata 承办的第四道 KDD Cup 赛题。目前，biendata 已是全球承办 KDD Cup 赛题最多的平台之一。在自然界和社会科学中，图结构无处不在，包括分子结构、社交网络、论文引用网络和细胞信号通路等。其中，最早于 1965 年被提出的论文引用网络是一种典型的图结构：论文是节点，引用关系是边。

研究论文引用网络可以在很多领域得到引用，比如科学影响评估，知识发现，以及技术预见等。深度学习已经在很多领域获得了成功。最近，研究者发现很多深度学习技术可以用于图数据。不过，深度学习模型非常容易受到攻击。一个非常类似原数据的对抗样本，可以极大地拉低分类器的性能。这种情况在图数据上也会出现。2018 年的 KDD 最佳论文就发现极其轻微的扰动就能让节点分类器的准确率大幅下降。

在论文引用网络中，可能存在多种类型的对抗攻击。例如，预打印论文网站（如 arxiv）中的论文因为无需同行评议，所以存在很多低质量的引用。另一种是虚假引用（coercive citation）。2019 年，《自然》杂志报道了著名出版商爱思唯尔调查发现数百名研究人员通过操纵同行评议流程，增加自己的论文引用数。这些对引文网络的攻击不仅会降低公众对科技行业的信任，也会损害对学术数据进行定量分析的努力。

所以，我们组织这次比赛，希望可以研究如何攻击和防御学术图数据。本次比赛分为两个阶段。阶段 I：攻击组织者的模型。在本次比赛中，参赛队伍需要对组织者提供的图数据进行攻击，并拉低组织者的节点分类器的准确率。已有的图包括 593,486 个节点，每个节点都有一个 100 维的特征。其中 543,486 个节点是训练数据，50,000 个节点是测试数据。

组织者在后台提供一个节点分类器，为 50,000 个测试节点进行分类。分类器不会被发布。参赛选手可以添加不超过 500 个新的节点，达到干扰图数据的结果。每个新的节点最多只能有 100 条边。包含了新节点的图将会干扰分类器，降低分类器的性能。如果降低的幅度越大，干扰的效果就越好。阶段 II: 队伍之间的攻防。在第二阶段，参赛队伍需要根据一个新的图数据集，同时提交攻击和防御器。

组织者将在比赛后匹配所有参赛队伍的攻击和防御，计算分数。