由于在实际应用中普遍使用图结构化数据,图上的机器学习近年来引起了极大的关注。现代应用领域包括网络规模的社交网络,推荐系统,超链接的网络文档,知识图谱,以及通过不断增长的科学计算生成的分子模拟数据。这些领域涉及具有数十亿个边的大规模图或具有数百万个图的数据集。
大规模部署准确的图机器学习算法将产生巨大的现实应用影响,比如实现更好的推荐结果,更优化的Web文档搜索排序,更全面的知识图谱以及基于机器学习的精确药物和材料发现。但是,目前的大多数图机器学习模型都是在极小的数据集上开发和评估的。
2021年,由斯坦福、清华等组成的OGB团队在KDD Cup 2021开展了一个大规模图机器学习的开放比赛,即OGB大规模图机器学习挑战赛(OGB-LSC),以鼓励开发适用于大规模图数据集的最新图机器学习和深度学习模型。
经过全球500多个顶尖高校、企业和研究实验室的激烈竞争,百度凭借飞桨图学习框架PGL一路过关斩将,最终在全部三个赛道包揽了两冠一亚,微软亚洲研究院获得一项冠军,DeepMind获得一亚一季。在今年的NeurIPS 2022,OGB团队围绕OGB-LSC数据集组织了第二届OGB-LSC大规模图机器学习挑战赛。
重要的是,组织方根据从KDD Cup 2021中吸取的经验,更新了部分数据集,从而使该年大赛的图数据集更具挑战性和现实性。OGB-LSC 2022提供了三个规模空前的图数据集,分别涵盖了节点、链接和整图级别的预测任务。具体的OGB-LSC大赛资料请见:https://ogb.stanford.edu/neurips2022/。