过去一年,每100篇文献里就有1篇是ChatGPT“帮忙”写的

作者: CHRIS STOKEL-WALKER

来源: 环球科学

发布日期: 2024-05-27 22:01:29

最新的分析表明,2023年发表的科学论文中约1%存在生成式AI参与的迹象,部分科学家对此表示担忧。研究发现AI生成的文本在科学文献中越来越普遍,尤其在计算机科学领域,AI的使用率更高。AI生成的内容可能导致科学文献中出现不准确的引用和数据,影响学术诚信。

最新的分析表明,2023年发表的科学论文中的1%存在生成式AI参与的迹象。研究人员正在滥用ChatGPT和其他人工智能聊天机器人来制造科学文献。至少,部分科学家最近在担忧此事,他们的证据是发表的论文中疑似生成式AI“口头禅”的词句数量急速上升。

其中有些泄露的例子相当明显地显示了撰文科学家使用了大语言模型(LLM),也就是AI聊天机器人,比如在爱思唯尔(Elsevier)出版的期刊《表面和界面》(Surfaces and Interfaces)近期一篇文章中意外包含了“一句:当然,以下是你提供的主题的可能的引言。”但“这只是冰山一角”,科学诚信咨询顾问Elisabeth Bik这样表示。

爱思唯尔一位代表告诉《科学美国人》,出版社对这个情况深表遗憾,并且正在调查这篇文章是怎么蒙混过审稿过程的。

在大多数其他情况下,AI是否参与不是这么显而易见,并且自动AI文本检测器用于分析论文也是不可靠的。然而,来自多个领域的研究人员已经识别到了些关键词和短语,比如“复杂且多方面的”(“complex and multifaceted”)。它们在AI生成的句子中的出现频率往往高于一般的人类写作。

英国伦敦大学学院(University College London)的图书管理员和研究者Andrew Gray表示:“当你对这东西看多了,你就能感觉到这种风格了。”

LLM是被设计用来生成文本的,但它们生成的文本可能事实准确性不高。Bik表示:“问题就在于这些工具还没有好到让人能够信任。”它们容易出现计算机科学家称之为“幻觉”的问题,简单来说,它们会捏造事实。Bik指出,尤其对科学论文来说,AI会生成根本不存在的参考文献。所以如果科学家过分相信LLM,论文作者是在冒险让他们的工作中被加入AI制造的错误,使得本就混乱的学术出版混入更多错误。

Gray最近使用数据分析平台Dimensions搜寻了科学论文里的AI流行词,开发者宣称该平台可以追踪全球超过1.4亿篇论文。他搜索了那些聊天机器人的偏好词汇,比如“错综复杂”(intricate)、“一丝不苟”(meticulous)和“值得称赞”(commendable)。他表示,相比于AI特有的表述被马虎的作者复制到文章中导致真相泄露,这些词语更能反映问题的规模。

根据Gray的分析,至少6万篇论文可能使用了LLM,这略多于去年全球发表的科学文章总数的1%,该工作已公开在预印本平台arXiv.org上,尚未经过同行评议。还有一些研究则发现某些子领域对LLM的依赖程度可能更高。其中一项调查发现近期的计算机科学论文中,高达17.5%的论文有AI写作的迹象。

《科学美国人》使用多种科学出版数据库搜索也得出了类似的发现。

(使用的数据库包括:Dimensions、谷歌学术、Scopus、PubMed、OpenAlex和Internet Archive Scholar。)搜索中为了寻找LLM参与了学术论文的文本生成迹象,要统计ChatGPT和其他AI模型会添加的经典表述的出现频率。

比如,此次使用的四个主要论文分析平台显示,“根据我最后一次知识更新”(as of my last knowledge update)这个表述在2020年仅出现了一次,在2022年出现了136次。不过,这种方法也存在一定局限性:它不能排除掉研究AI模型而不是使用AI生成内容的论文。并且这些数据库包含的内容不限于科学期刊中经过同行评议的文章。

与Gray的方法类似,这种搜索也发现了一些更微妙的痕迹,可能指向了大语言模型的参与。该方法观察了ChatGPT偏好使用的口头禅在科技文献中的出现频率,并追踪它们在2022年11月OpenAI的聊天机器人发布之前、从2020年开始的变化情况。这些发现表明,科学写作的词汇已经发生了一些变化——这可能是因为日益增加的使用聊天机器人的写作习惯。“有一些证据表明部分词汇正在随着时间稳定变化,”Gray说。

“但问题是,这到底有多少是长期自然发生的语言变化,有多少是其他原因。”

为了寻找AI参与论文制造或编辑的可能迹象,《科学美国人》在搜索中深入挖掘了“挖掘”(delve)一词——正如一些非正式的AI文本监测人员指出的,这个词在学术界出现的频率出现了异常的飙升。在PubMed收录的约3700万条生命科学和生物医学论文摘要中,对其使用情况的分析表明了这个词的流行。

“挖掘”从2020年的349次使用,增加到2023年的2847次,再到2024年的2630次——增长率为654%。Scopus数据库涵盖更广的科学领域,该数据库和Dimensions数据中也出现了类似但不这么明显的增长趋势。

根据《科学美国人》的分析,其他被监测人员标记为AI生成的流行词也出现了类似的增长。

“值得称赞的”(commendable)在2020年Scopus和Dimensions追踪的论文中分别出现了240次和10977次。在2023年数字分别增长至829次(增长率245%)和20536次(增长率87%)。另外,对于本应该“一丝不苟”(meticulous)的研究来说有点讽刺的是,“一丝不苟”这个词从2020年至2023年间在Scopus中出现频率翻了一番。

在学术界,人们奉行“不发表就出局”(publish or perish)的信条,而通常在出版中必需的英语能力对写作者来说可能是外语或者第二外语,因此一些人使用聊天机器人来节省时间或增强他们的英语能力也不意外。然而,将AI技术用作语法或句法助手可能会让人滑向在科研的其他环节中也使用AI的错误。与LLM共同撰写论文可能导致关键数据也完全由AI生成或同行评议被外包给这些自动化的评估者。

这些不是在危言耸听。

AI一定已经被用于论文中常见的科学示意图和插图中,一个明显的例子是有篇论文的插图是一只非常怪异的啮齿动物。而且,AI甚至在实验中也代替了人类参与者。AI聊天机器人的使用可能也已经渗透了同行评议过程本身,一个预印本研究支持了这一想法。该研究收集了2023和2024年的AI领域会议上展示过研究的科学家收到的语言反馈,对其进行了分析。

如果AI生成的文本、判断都悄悄进入了学术论文,这让专家们非常担忧。总部位于英国的非营利组织出版伦理委员会(Committee on Publication Ethics)致力于推动符合伦理的学术研究行为,其理事会成员Matt Hodgkinson表示:聊天机器人“不擅长进行分析,这是真正的危险之处。”

UUID: dede27ec-4dbf-4c8d-9c17-07d2afa6a43b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/环球科学公众号-pdf2txt/2024/环球科学_2024-05-27「转」_过去一年,每100篇文献里就有1篇是ChatGPT“帮忙”写的.txt

是否为广告: 否

处理费用: 0.0071 元