智源大会“AI开放与共享论坛”:AI研究的可复现性与开放共享

来源: 学术头条

发布日期: 2021-06-10

2021年6月3日,北京智源大会“AI开放与共享论坛”成功举办,聚焦AI研究的可复现性与开放共享。论坛分为介绍、主题报告和圆桌论坛三个环节,多位专家学者分享了关于神经机器翻译、事件提取、Web搜索评价、图神经网络和知识图谱实体对齐的最新研究进展。与会者还讨论了数据开放、分享激励机制和可复现性等问题,强调自愿分享和保持学术初心。

2021年6月3日下午,北京智源大会“AI开放与共享论坛”专题论坛成功举办。本次论坛邀请了《AI Open》杂志第一期收录文章的撰写机构代表。

清华大学副教授、智源青年科学家刘知远担任论坛主持人,参与演讲和探讨环节的嘉宾包括清华大学教授兼智源研究院学术副院长唐杰教授、智源研究院运营副院长刘江、科爱出版总监王重芳、中国人民大学副教授张静、清华大学谭知行博士、中科院自动化所研究员刘康、清华大学张帆、清华大学侯磊等。

本次论坛分为三个环节,第一个环节是关于《AI Open》的介绍和战略合作签约仪式;第二个环节是各位嘉宾的主题报告;第三个环节是围绕AI研究的可复现性与开放共享的圆桌论坛。

在本次论坛的开始,唐杰教授、《AI Open》副主编之一张静老师和科爱出版总监王重芳女士为大家介绍了《AI Open》基本情况、征稿情况和未来发展的愿景。唐杰教授表示:“我们的发展目标,是三年内使《AI Open》发展成为中国人工智能领域最高水平的国际性学术期刊,五到八年时间进入到SCI QI水平,希望大家共同努力,把高质量的文章聚集在一起。”

在随后举行的签约仪式上,智源研究院院长黄铁军教授和科爱出版总监王重芳女士共同上台完成了两机构的战略合作签约仪式。他们表示,未来专注于AI开放与共享的《AI Open》期刊,将依托智源社区,以崭新形式与机制,进一步打造成为开放、协作的新一代学术交流平台。随后,清华大学谭知行老师进行了首个主题报告。

他的演讲主题是:神经机器翻译:方法、资源和工具综述(Neural machine translation: A review of methods, resources, and tools)。谭知行博士的报告首先简单概述了机器翻译的定义和研究发展过程,解释了机器翻译具体是如何实现的。他提到,整个机器翻译的方向已经非常庞大,包含架构、推断、数据目标、大数据利用、开放和融合。

第二位报告的嘉宾是中科院自动化所研究员刘康老师,他的演讲主题是:从文本中提取事件及其关系:近期研究进展与挑战综述(Extracting Events and Their Relations from Texts: A Survey on Recent Research Progress and Challenges)。

报告中提到,现在绝大多数图谱还是以文本方式来构建的,以实体为核心,抽取各种实体,以及挖掘实体之间的关系。第三位报告的嘉宾是清华大学的张帆,他的演讲主题是:面向Web搜索评价的用户行为建模(User behavior modeling for Web search evaluation)。张帆表示,这篇论文是他和清华大学所在课题组的几位老师共同合作处理的框架。

整个工作是关于信息检索Web Search评价的工作。评价工作本身是一个非常重要的事情,而这个工作实际上是对于Web Search的评价方法的一些相关工作梳理。

第四位报告的嘉宾是清华大学副教授、智源青年科学家刘知远,他的演讲主题是:图神经网络:方法与应用综述(Graph neural networks: A review of methods and applications)。刘知远介绍,他这篇综述的主要研究方向是研究图和网络。图和网络这种结构本身是非常常见的数据结构,包括在物理系统、社会网络、分子图等等方向,都是以图的形式来去展现。

第五位报告的嘉宾是清华大学的侯磊,他的演讲主题是:知识图的实体对齐综述(A comprehensive survey of entity alignment for knowledge graphs)。

他的报告主要讲三个方面,一个是传统的方式,又细分为语义匹配和GNN方式,里边其实共用的就是都对结构化和非结构化信息的利用;然后简单的介绍一下这个领域的数据集和EAkit,这个历史是很悠久的,知识图谱的时代任务已经存在了,所以发展相对成熟。最后一个环节为圆桌论坛,各位发言嘉宾围绕AI研究的可复现性与开放共享展开研讨。

大家首先探讨的是可复现性与开放共享,必要性是什么、为什么它很重要、它是否重要、以及结合个人经历,表达了对可复现性的看法。不同的嘉宾对这个问题是态度是有些不同。然后大家又针对可复现性与开放共享可能提出的措施,例如王重芳女士提到的期刊专业的Data Share平台、刘江老师提到的分享激励机制以及刘知远提到的学术会议未来会给更详细的开源的要求等等。

随后唐杰教授对以上讨论进行了阶段总结,他提出:“数据开放可以分三个方面,第一是完全开放,论文、代码、数据开放出来,这是一个策略;第二个,就是其中两个都不开放,只选一个开放,使得核心的算法可重现。第三个,完全不开放,不可重现,这个时候可以表示不可重现的各种原因。总得来说,这应该是一个处于自愿的行为。《AI Open》如果能够跟智源一起促进这三类情况,将会是一个很好的结果。”

接下来各位嘉宾又针对是否需要将研究者的评价指标和可复现和共享指标挂钩进行了讨论。大家一致认为,各自的研究组都因为开源收益颇丰,但分享是一个自愿的过程,是其它人认识自己的过程,本身就已经有很强的正向激励作用,不太希望被列成指标,避免功利化,保持初心也可以促进整个学术界保持一种良好的风气。

最后大家对《AI Open》期刊寄予厚望,希望未来可以一直保持开放,跟互联网当下结合,在idea的层面进行学术的迸发,为大家提供一个良好的展示及探讨平台。

UUID: 2a91eda1-01c4-45d0-8c2f-7181200e1de0

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-06-10_智源大会“AI开放与共享论坛”:AI研究的可复现性与开放共享.txt

是否为广告: 否

处理费用: 0.0060 元