数据集是诸多人工智能研究的重要支柱,不仅可以提供训练模型的“燃料”,也能起到评价模型的基准作用。作为训练和测试机器学习模型的资源,它们深深融入AI从业者的工作实践中。随着AI领域的持续发展,越来越多的优质数据集通过各式各样的数据竞赛在AI社区中流通。在这方面,过去5年来,智谱AI和AMiner团队联合组织了20次数据竞赛,并发布了一批大规模、高质量的数据集。
比赛总共吸引了超过1万人次参与,合作会议和机构包括KDD Cup、IJCAI Cup、WSDM Cup、CCKS评测、智源算法大赛、中国人工智能学会、中国中文信息学会、中国工程院和微软等。这些数据竞赛既覆盖了学术前沿,如图数据攻防、异构图网络;也包括了各类应用,如同名消歧、学者画像;更涉及到对社会有意义的各类任务,如新冠知识图谱构建和疫情趋势预测等。
总的来说,所有的比赛可以归纳为4条主线:学术大数据和同名消歧(WhoIsWho)、知识图谱和图神经网络,这也符合智谱AI打造数据与知识双轮驱动的人工智能框架,让机器像人一样思考的技术愿景。
在学术数据大爆炸的今天,学者数量也随之暴涨。例如,AMiner中已有大约1.3亿名论文作者的档案以及2亿多篇论文的信息。
所以线上学术搜索系统(例如Google Scholar, Dblp和AMiner等)已成为目前学术界重要的学术交流以及论文搜索平台。然而由于论文分配算法的局限性,现有的学术系统内部存在着大量的论文分配错误;此外,每天都有大量新论文进入系统。
故如何准确快速地将论文分配到系统中已有的作者档案以及维护作者档案的一致性,是现学术系统亟待解决的难题,也是确保学术系统中的专家知识搜索有效性、数字图书馆的高质量内容管理以及个性化学术服务的重要前提。
为了弥补同名消歧领域中大规模高质量同名消歧数据集及标准评测任务的空白,WhoIsWho已标注并发布百万级人工标注的同名消歧数据集,且配套举办了四届竞赛,合作机构包括中国工程院、微软、北京智源人工智能研究院和IJCAI 2021学术会议,期间吸引了国内外千余名学者和若干机构参与。2021年12月26日,WhoIsWho再次上线,并计划长期开放,成为同名消歧领域的benchmark。
清华大学知识工程实验室从1996年成立至今已有25年的历史。实验室多年来聚焦于网络环境下的知识工程,在知识获取、融合和挖掘上取得了很多创新成就。2019年,为了把AMiner技术进一步推广,产生应用的生产力,通过技术转化成立了智谱AI,希望用基于知识和大数据挖掘的技术产生更广泛的应用。
2017年,知识工程实验室联合中国工程院知识中心、微软等机构,联合组织了开放学术数据挖掘大赛,要求选手在学者画像信息抽取、兴趣标签预测和未来影响力预测等任务上进行探索。2021年,AMiner与CCKS联合组织了学者画像知识图谱评测。比赛数据为搜索学者返回的一组搜索引擎返回的网页,其中包括学者本人相关的网页、同名者的网页和其他不相关的网页。
参赛选手需要从这组网页中提取关于这名学者的结构化的信息,如学者主页、性别、教育经历等。
如果你是数据挖掘领域的研究者或者算法工程师,那么对“异构图(Heterogenous Graph)”或者“异构信息网络(Heterogenous Information Network)”肯定不会陌生。简单地说,与一般的(同构)图不同,异构图中的点和边分为不同类型,甚至带有不同种类的信息。
异构图在工业界的诸多场景有着广泛的应用,随着图神经网络的兴起,许多异构图神经网络也如雨后春笋般涌现出来。然而令人遗憾的是,异构图往往和目标数据高度耦合,许多工作使用了完全不同的数据集,或者在相同数据集上设定不同。就像同构图有OGB一样,异构图也需要一个一决高下的舞台,让不同的工作可以得到公平的比较。
因此,2021年的清华大学知识工程实验室发表在KDD上的论文“Are we really making much progress? Revisiting, benchmarking and refining the Heterogeneous Graph Neural Networks”推出了横跨三大任务11个数据集的异构图领域的基准Heterogenous Graph Benchmark(HGB)和强基线方法Simple-HGN。
科学研究已经成为现代社会创新的主要动力。大量科研数据的积累也让我们可以理解和预测科研发展,并能用来指导未来的研究。论文是人类最前沿知识的媒介,因此如果可以理解论文中的数据,可以极大地扩充计算机理解知识的能力和范围。在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。
如果我们可以自动地理解、识别描述对应的被引论文,不仅可以加深对科研脉络的理解,还能在科研知识图谱、科研自动问答系统和自动摘要系统等领域有所进步。2020年,智谱AI联合biendata与WSDM Cup,共同组织了DiggScience比赛,要求选手构建可以理解论文语义的模型,匹配论文和对论文的描述。2020年初,新冠疫情开始蔓延。
为了结合基于病原生物学、生物信息学和机器学习的交叉学科对传染病走向预测的研究,测试各类不同技术的最新成果,智谱AI组织了新冠流行趋势预测比赛。在比赛期间,参赛团队每天都需要提交一份对未来七天中国新增确诊人数和新增治愈人数的预测。排行榜每天都会刷新。