2019年10月,智源-AMiner北京智源人工智能研究院和AMiner联合发布了一个大规模姓名排歧数据集OAG – WhoIsWho,这是目前为止发布的人工标注数据规模最大的姓名消歧数据集。依托数据集,智源和AMiner联合发布了一项奖金为10万元的比赛。目前,比赛仍在进行中。
我们邀请了一些参赛选手对数据集进行了一些有趣的探索,另外还邀请了AMiner官方和往届比赛获奖选手提供了两个baseline。EDA和baseline的代码和结果都可以到比赛页面https://biendata.com/competition/aminer2019/的“Models”栏目查看。
在外文期刊数据库中,同一姓名简称代表多位作者的现象十分普遍,严重影响作者检索的精度,所以在此查看论文作者的重名、缩写名、别名等信息。发现在训练集中作者同名数量为221,平均每个同名作者的论文数在1000左右。同样的在测试集中,同名作者数量为50,其所涉及的平均论文数量是917.96。
查看几条重名作者的信息后,我们可以发现,论文作者名字存在不一致的情况主要源于名字大小写问题、姓和名顺序不一致、名字带有下划线或横线、名字是否简写、以及名字是否分开写,例如:来源:赛道一,朱丽。此外,一个作者、一段时间内应该是在一个单位工作的,我们可以根据作者的工作单位变动信息来为作者构建一个时间段映射到工作单位的表,在给出新论文时,用论文年份和作者工作单位进行辅助筛选。
为此引入年份和工作单位,我们统计一下作者工作单位变化情况。发现共计262388份论文,其中无年份或者年份错误的占比很少,只有698份论文没有年份信息,所以绝大部分数据是有效的,可以利用这个特征。
最后,AMiner官方和往届比赛获奖选手分别为两个赛道提供了baseline代码供大家参考:赛道一:申发海,重庆邮电大学计算机硕士,研究方向涉及计算机视觉,机器学习,深度学习,曾获CCIR2019基于电子病历的数据查询类问答大赛第一名,2018开放学术数据挖掘大赛第二名,搜狐图文匹配算法大赛三等奖等。
赛道二:陈波,中国人民大学信息学院计算机科学与技术系学术型研究生,主要研究方向为数据集成,知识图谱及社交网络相关研究。目前致力于学术网络中的实体消歧与跨语言知识图谱对齐等研究。