通过设计⼀个给ChatGPT发送“提示”的⾃动化系统,研究⼈员⽣成了⼀篇流畅、有⻅解的论⽂。但他们的顾虑并未消除。两位科研⼈员在ChatGPT的帮助下,只⽤不到⼀个⼩时就完成了⼀篇论⽂。ChatGPT是由⼈⼯智能(AI)驱动的数字⼯具,能理解和⽣成类似⼈类书写的⽂本。这篇论⽂流畅、有⻅地,格式也符合科研论⽂的标准,但研究⼈员表示,ChatGPT在能真正⼤派⽤场之前还有很多障碍需要克服。
这次实验的⽬的是探索ChatGPT作为科研“副驾”的能⼒,并展开关于其优缺点的讨论,以⾊列理⼯学院(Technion)的⽣物学家、数据科学家Roy Kishony说,“我们需要讨论如何在发挥其优势的同时避免其劣势。”这个团队设计了⼀个软件包,能向ChatGPT⾃动发送提示,并基于ChatGPT的回复修改论⽂。
这个⾃动化的“从数据到论⽂”系统引导ChatGPT完成⼀个类似于做科研的“分步式”过程——从最初的数据探索,到撰写数据分析代码和解读结果,再到写作和润⾊⼿稿。
为了测试他们的系统,Kishony与他的学⽣、Technion的数据科学家Tal Ifargan从美国疾病控制中⼼健康⾏为危险因⼦监测系统下载了⼀个公开数据集,这个检测系统是⼀个健康相关的电话调查数据库。该数据集包含从逾25万⼈中采集的关于他们糖尿病现状、果蔬摄取、身体锻炼的信息。启动系统后,他们便去吃午饭了。
论⽂的基本要素首先,系统先让ChatGPT编写数据探索代码。
ChatGPT最先给出的代码错误百出,⽆法运⾏。但当该系统发现了这些错误后,系统会⾃动将提示返回给ChatGPT,让ChatGPT修复代码。下⼀步,Kishony和Ifargan的系统让ChatGPT帮助拟⼀个研究⽬标。ChatGPT建议研究身体锻炼与饮⻝会如何影响糖尿病患病⻛险。系统再让ChatGPT创建数据分析计划和数据分析代码。
ChatGPT根据代码给出了结果:多摄⼊⽔果和蔬菜和身体锻炼与糖尿病⻛险降低有关。
有了结果后,该系统便让ChatGPT开始写论⽂。它开了两个ChatGPT的对话。⼀个对话中,这个系统告诉ChatGPT它是⼀名科研⼈员,并指导它写完了论⽂的各个部分。第⼆个对话中,ChatGPT扮演了审稿⼈的⻆⾊,为“科研⼈员”版ChatGPT⽣成的⽂本提供建设性意⻅。
⽣成式AI的⼀个问题是它们会通过胡编乱造来填补空⽩,这个现象也被称为幻觉(hallucination)。为了防⽌它乱编参考⽂献,团队让ChatGPT接⼊了⽂献搜索引擎,以便它能给出正确的引⽤渠道。
就在他们快吃完午饭时,ChatGPT已经⽣成了⼀篇数据分析可靠、简明清晰的⼿稿。但这篇论⽂谈不上完美。⽐如,这篇论⽂写道,该研究“填补了学术⽂献的⼀个空⽩”,这句话在论⽂中很常⻅,但在这个研究中是不准确的,希伯来⼤学计算科学家Tom Hope说。研究结果“肯定不会让医学专家眼前⼀亮,”他说,“连创新都谈不上。”
利与弊Kishony还担⼼,这类⼯具会让研究⼈员更容易出现科研不端的⾏为,⽐如P值操纵(P-hacking),也就是科研⼈员会⽤⼀个数据集检验多个假说,但最后只报道有显著结果的那个。他的另⼀个担忧是,如果⽣成式AI⼯具让写论⽂变得很容易,期刊可能会⾯对⼤量低质量投稿。他说他的“从数据到论⽂”加上每⼀步都有⼈类监管的⽅法,或能作为研究⼈员轻松理解、检查、复制研究⽅法和研究结果的⼀种⽅式。
南澳⼤学开发教育AI技术的Vitomir Kovanovi?说,AI⼯具在科研论⽂中的使⽤需要更⾼的可⻅度。否则很难评估研究结果的正确性,他说,“如果⽣产假论⽂变得这么容易,我们今后可能要做得更多。”⽣成式AI⼯具可⽤来执⾏简单直接但很费时的任务,加速科研进度,这类任务包括写摘要和代码,美国麻省理⼯学院和哈佛⼤学的博德研究所的计算⽣物学家Shantanu Singh说。
他说,它们或许还能从数据集⽣成论⽂,或是提出假说。不过,由于研究⼈员很难分辨这些⼯具的幻觉和偏⻅,Singh说,“我不认为把整篇论⽂拿给它写是个好主意,⾄少在可⻅的未来还不⾏。”