近期,“撤稿观察”(RetractionWatch.com)网站报道了一桩手法惊人的疑似学术不端事件。2021年7月中旬,国际学术出版商爱思唯尔(Elsevier)宣布调查旗下期刊《微处理器和微系统》(Microprocessors & Microsystems),对其发表过的400多篇论文进行逐一“重新独立评估”。
而这些需要被调查的文章主要来自该期刊的6份“特刊”(Special Issues)。
有别于常规正刊,特刊往往以更加明确细分的特定研究课题为主,邀请客座编辑监督编撰。因此,发表在特刊上的文章有独特优势:在同一领域内的可见度更高,出版速度也因文章独立正刊发表而更快。《微处理器和微系统》是一本什么期刊?数据显示,其刊物影响因子1.525,是中科院工程技术及计算机科学四区期刊。
该刊论文内容涵盖所有与嵌入式系统硬件相关的设计和架构,包括计算机、人工智能、通信、网络技术等多个学科领域。该刊官网介绍称,近5年来,其刊物文章通讯作者的第一大来源国是中国,紧随其后的是印度。
爱思唯尔的发言人接受《自然》(Nature)采访时表示,根据目前已知情况,需要被调查的400多篇文章的作者很可能使用了反向翻译软件来掩饰剽窃行为,但调查仍在进行中。
几乎同时,法国图卢兹大学(University of Toulouse)的计算机科学家Guillaume Cabanac和他的同事们在预印本网站arXiv.org上发布了一篇文章,揭示了一种伪造学术论文的新方式——用扭曲短语(tortured phrase)代替常规专业术语,躲过查重,让文章顺利发表。而被发现有此问题的文章多一半来自《微处理器和微系统》。
所谓“扭曲短语”是将约定俗成的英文专业术语通过软件翻译成某一门外语,再翻译回英语,最终得到与原术语意思类似,但看上去非常奇怪的同义词短语。
比如,研究人员亲自试验,将“artificial intelligence”(人工智能)在相关软件内多次替换之后,就顺利出现了“counterfeit consciousness”(仿造意识),“man-made brainpower”(人造智力)或者“computerized reasoning”(计算推理)等由“artificial intelligence”扭曲而来的画风奇异的术语。
这些隐蔽的问题是怎么发现的?原来,今年4月,Cabanac和他的同事们先是在一些计算机科学的论文中发现了些许长相怪异的短语,于是搜集了30个奇怪短语放入引文数据库中搜索,结果一下子搜出860多篇文章!而其中500多篇来自同一本期刊:《微处理器和微系统》。
随后,他们选取了《微处理器和微系统》以及其他期刊上已经发表的一些论文摘要,使用自然语言处理模型GTP(生成预训练,Generative Pre-Training)检测器对其进行分析,筛查出可能是人工智能转写出来的合成文本,并肉眼阅读了其中几篇,果然发现了不少公开发表的论文中不该出现的问题。
虽然此次大规模论文重新调查事件尚未定论,但据目前情况来看,学术不端行为的泛滥面临两个严重新问题,值得警示:首先,近年来,人工智能技术逐步应用在学术不端控制与预防方面,包括大数据智能检索防止文字、数据和图像FFP[指伪造(Fabrication)、篡改(Falsification)和抄袭(Plagiarism)],AI辅助同行评审,智能身份识别等等,为提高科研诚信做出了贡献。
然而,带来利的人工智能技术也可为有心学术不端的人所利用。除了已揭发的“扭曲短语”造假手段之外,未来是否会继续出现更加便捷的智能造假技术,应用在更多学科领域的研究中呢?果真如此,又该采取怎样的措施来预防并打击各种新花招呢?
其次,这次事件还暴露了正刊之外特刊出版中的潜在缺陷,让学术不端趁虚而入。
爱思唯尔为特刊推出了一种新的出版流程:特刊文章可独立发表,这样可避免文章出版的延迟,克服了传统流程的缺点,即必须等所有稿件都完成之后才能出版。所以,特刊文章发表速度更快些,不过即使再快,正如Cabanac研究所发现的,400多篇论文在30天内即完成从投稿到接收的过程,其中有些文章同一天投稿、修改、接收,这一明显“超载行为”让人无法不去怀疑其流程中有什么“猫腻”。