OAG-WhoIsWho 同名消歧挑战赛(第二期)正式启动上线。在许多线上应用中,同名消歧一直是一个具有挑战性的问题,如科学文献管理、人物搜索、社交网络分析等。同时,随着科学文献的大量增长,使得该问题的解决变得愈加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究,但由于数据的杂乱以及同名情景十分复杂,导致该问题仍未能很好解决。
收录各种论文的线上学术搜索系统如 Google Scholar, Dblp 和 AMiner 等,已经成为目前学术界非常重要的学术交流以及论文搜索平台。然而由于论文分配算法的局限性,现有的学术系统内部存在着大量的论文分配错误;此外,每天都会有大量新论文进入系统。如何准确快速地将论文分配到系统中已有的作者档案以及维护作者档案的一致性,是线上学术系统亟待解决的难题。
在此背景下,链想家联合 AMiner 共同发布了同名消歧挑战赛,本次比赛是 OAG-WhoIsWho 同名消歧系列挑战赛的第二期。第一期竞赛吸引了超过 500 支队伍,1000 人参赛,并且在同名消歧领域取得了良好的反响,也提出了不少具有启发性的解决问题思路。
同时北京智源人工智能研究院和 AMiner 也公开发布了相关的数据集 OAG – WhoIsWho_v1,旨在为大家提供解决学术系统内部的同名消歧问题的 benchmark。第二期竞赛相对于第一期来说使用了更好的数据集标注框架和更新的竞赛任务,相关数据集在竞赛完成后也会发布在上述网页。
据了解,OAG-WhoIsWho 系列数据集是目前为止最大的人工标注的同名消歧数据集,后续 AMiner 会以增量的方式发布更多的数据集并配套相关竞赛,打造出本领域的 ImageNet,敬请期待。本次比赛开放时间为 2020 年 5 月 20 日,在 10 月 31 日初赛提交将截止并关闭提交入口,11 月 1 日开启复赛并同步开放测试集数据下载与复赛提交入口。
参赛选手有 24 小时的时间进行复赛提交,11 月 2 日复赛提交截止后将关闭复赛提交入口。比赛提交结束后经组委会完成参赛队伍审查,最终将于 11 月 15 日前决出最终排名。比赛共设置了两条赛道:赛道一的任务要求参赛选手从给定的一组有同名作者的论文中,识别出哪些同名作者的论文属于同一个人;赛道二的任务则要求参赛选手将一组新增的论文准确分配到系统已有的作者中,包含解决论文分配的 NIL 问题。
本次比赛所使用的 OAG-WhoIsWho_v2 数据集使用了更好的标注框架,数据更为准确。数据集可在竞赛界面下载,全部数据集会在竞赛结束后陆续发布。本次比赛总奖金共 15 万元。点击阅读原文或扫描下图中的二维码进入大赛官网,选择同名消歧挑战赛注册报名,下载数据,即可参赛。