近年来我们在报道 AI 顶会的文章里不断听到“史上最大”、“论文数量新高”等字眼,论文的审核俨然成了一项挑战。但既然是在研究 AI,为什么不让机器来自动解决问题?
人工智能顶会 NeurIPS 2019 的现场,曾被人吐槽像跨年夜的百货商场。对于大多数科学领域来说,期刊是同行评审和论文发表的主阵地,编辑们会根据专业判断将论文分配给合适的审稿人。但在计算机科学领域,寻找审稿人的过程通常是匆匆忙忙的:大多数论文是一次性提交给年度大会,组织者需要在仅仅一周的时间内将成千上万的论文分配给成千上万的审稿人。
这样的节奏是非常紧张的,在过去的五年内,大型 AI 会议的投稿量增长了三倍不止,也给大会主办机构带来了不小的压力。举个例子,人工智能领域最大规模的定会 NeurIPS 2020 收到了 9000 多份有效投稿,比上一年增长了 40%。组织者不得不将 3 万多个审稿任务分派给约 7000 位审稿人。
NeurIPS 2020 大会主席 Marc’Aurelio Ranzato 表示:这非常累,压力很大。大概也是近水楼台先得月,AI 顶会的审稿工作得到了 AI 的协助。
首先,主办方使用了 Toronto Paper Matching System (TPMS),在此之前 TPMS 也被应用于其他多个会议的投递论文分配工作,它通过对比投稿论文和审稿人研究工作之间的文本,来计算投稿与审稿人专业知识之间的相关性。这个筛选过程是匹配系统中的一部分,期间审稿人也可以主动争取自己希望审阅的论文。
同时还有方法更加优化的 AI 软件:论文审阅平台 OpenReview 开发了一种亲和力评测系统,借助了神经网络 Spectre 来分析论文标题和摘要。OpenReview 和麻省大学阿默斯特分校的计算机科学家 Melisa Bok 和 Haw-Shiuan Chang 表示,包括 NeurIPS 在内的一些计算机科学大会将在今年把亲和力评测系统与 TPMS 结合使用。
AI 会议的组织者希望通过提高匹配质量来推动同行评审和出版论文的质量。
为了提升匹配质量,CMU 的计算机科学家 Ivan Stelmakh 开发了一种名为“PeerReview4All”的算法,通常匹配系统会最大程度地提升论文和审稿人之间的平均亲和力,但有可能出现“厚此薄彼”的现象。PeerReview4All 旨在最大程度地提升最差匹配的质量,注重增加该过程的公平性。
这些系统的作用都是将一组已知的论文与一组已知的审稿人进行匹配,但还有另外一个问题:随着 AI 领域的不断发展,顶会还需要招募、评估、培训新的审稿人。针对此,Ivan Stelmakh 正在进行一项最新实验,探索一种不依赖 AI 来减轻这些任务负担的方法。他们在去年的 ICML 上,邀请了一些学生和刚刚毕业的人去审阅从同事那里收集的未发表论文(134 篇)。
随后团队邀请了 52 位成员加入审稿人团体,并为他们分配了一位资深研究人员担任导师。最终这些新手审稿人的工作成果还不错,与那些经验丰富的审稿人相差无几。借此 Ivan Stelmakh 证明了:主办方可以在不增加负担的情况下扩招数百名审稿人,且这些候选审稿人极具热情。