当大家搜索论文时,往往会去Google Scholar、PubMed、AMiner这样的学术搜索平台上进行检索。不过,由于这些学术系统内部的数据量十分巨大,比如AMiner大约有13亿个作者档案,超过2亿篇论文,以致于作者同名的情景非常常见。如何快速且准确地解决同名消歧问题目前仍有很大的障碍。
有时我们会看到以下情况:由于论文分配算法的局限性,现有的学术系统内部存在着大量的同名论文分配错误情况;此外,每天还会有大量新的论文录入系统。故如何维护作者档案的一致性以及准确快速地将新论文分配到系统中已有的作者档案中,是现有的线上学术系统亟待解决的难题。
为了解决这一问题,日前由北京智源人工智能研究院与AMiner共同举办的OAG-WhoIsWho系列竞赛正式启动,同时发布了大规模姓名排歧数据集OAG – WhoIsWho。据调研,该数据集是目前为止发布的人工标注数据规模最大的姓名消歧数据集。此次竞赛希望提出一种解决问题的模型,可以根据论文的详细信息以及作者与论文之间的联系,区分属于不同作者的同名论文,最终获得良好的论文消歧结果。
本次竞赛时间为9月30日-12月2日,总奖金10万元!欢迎感兴趣的小伙伴积极报名参与!竞赛详情可查看:https://www.biendata.com/competition/aminer2019/。根据姓名排歧任务的不同应用情景,竞赛同步开放了两个评测任务。任务一:论文的冷启动消歧。
任务描述:给定一堆拥有同名作者的论文,要求返回一组论文聚类,使得一个聚类内部的论文都是一个人的,不同聚类间的论文不属于一个人。最终目的是识别出哪些同名作者的论文属于同一个人。任务二:论文的增量消歧。任务描述:线上系统每天会新增大量的论文,如何准确快速地将论文分配到系统中已有作者档案中,这是线上学术系统最亟待解决的问题。
所以问题抽象定义为:给定一批新增论文以及系统已有的作者论文集,最终目的是把新增论文分配到正确的作者档案中。如有任何问题,请发邮件至support@biendata.com,或加入比赛的微信讨论群。加入微信讨论群请添加请添加数据竞赛小助手“学术君”(ID:AMiner308)为微信好友并在申请时备注“竞赛+机构+姓名”,由小助手统一添加进群。点击阅读原文报名哦!