图机器学习在2020年大放异彩,各种新理论和新应用精彩纷呈。就在近日,伦敦帝国理工学院教授、推特图学习研究负责人Michael Bronstein与图机器学习领域的多位资深研究者进行了深入交流,对该领域在过去的一年中的进展进行了较为全面的盘点,并预测了未来发展的方向。
1. 消息传递机制:2020年,图机器学习领域开始受限于消息传递范式的本质缺陷。上述缺陷包含人们常说的「瓶颈」、「过平滑」[2]等问题,以及表征能力的理论限制[3,4]。展望未来,我们希望研究人员在2021年开始寻找图机器学习的下一种核心范式。
2. 算法推理:显然,图表征学习在2020年已经不可逆转地成为了机器学习领域最受瞩目的课题之一。在2020年,图机器学习领域取得了不胜枚举的研究进展,神经算法推理是最令人振奋的课题之一。
3. 关系结构发现:自从最近基于GNN的模型被广泛采用以来,图机器学习社区中一个值得注意的趋势是:将计算结构与数据结构分离开来。在ICML 2020的研讨会演讲「关系结构发现」中,我介绍了这一趋势。
4. 表达能力:图神经网络的表达能力是2020年图机器学习领域的核心问题之一。2020年,有许多优秀的论文讨论了各种GNN架构的表达能力[27],指出了由于深度和宽度的限制,导致GNN存在根本上的表达能力局限性[28]。
5. 可扩展性:2020年,解决GNN的可扩展性问题是图机器学习研究领域最热门的话题之一。近年来,一些方法依赖于通过将预测与传播的过程解耦来简化底层的计算。
6. 动态图:许多有趣的图机器学习应用本质上是动态的,其中图的拓扑结构和属性都会随着时间演化。在社交网络、金融交易网络或「用户-物料」交互网络中,我们往往面对的就是动态图场景。
7. 新的硬件:在我所共事过的人中,我想不出还有谁没有在生产中部署过图神经网络,或者正考虑这么做。以往,自然语言处理、蛋白质设计、分子特性预测等应用中的自然的图结构往往会被忽视,而这些数据会被作为适用于现有的机器学习模型(例如Transformer)的序列输入。
8. 在工业界的应用:对于图机器学习研究领域来说,2020年是令人震惊的一年。所有的机器学习会议都包含10-20%有关该领域的投稿。因此,每个人都可以找到自己感兴趣的有关图的课题。
9. 在物理学的应用:我们惊讶地发现,图机器学习在过去的两年中已经在物理学研究领域盛行。早期在粒子物理学中使用深度学习的工作常常迫使将数据表示成图像的形式以用CNN处理。
10. 在医疗领域的应用:在医学领域中,图机器学习转变了我们分析多模态数据的方式,这种方式与医学专家在临床中根据所有可知的维度观察病人情况的方式非常相近。近年来,医学影像与医疗保健应用领域[45]中与图机器学习相关的研究纷纷涌现了出来。
11. 在生物信息学的应用:2020年,作为生物信息学领域中的一个关键问题,蛋白质结构预测取得了激动人心的进展,分子表面的化学和几何模式对蛋白质功能至关重要。
12. 在生命科学的应用:看到图机器学习在2020年进军生命科学领域令人十分振奋。我们已经看到,图神经网络不仅在精心设计的对比基准数据集上性能优于之前的方法,还为研发新药开辟了新的途径,这对人们有很大的帮助。