AI生成的论文标题与真实标题的比较研究

你看过 AI 续写故事吗？今年，用 AI 续写的故事在网络上火了起来，为大家熟悉的名著带来意想不到的展开。一定有人会因此产生大胆的想法：能不能用 AI 写论文？

让 AI 写完全篇论文有些勉强，但 AI 生成的论文标题或许能带来一些全新的思路。最近，《英国医学杂志》（The BMJ）圣诞特辑就发表了这样一项研究。该研究论证，AI 生成的标题看起来与真实标题一样有吸引力，并且人工干预能够让 AI 生成更好的标题，这表明未来 AI 或许可以为研究提出假设或指出方向。

来自英国布里斯托尔皇家儿童医院（Bristol Royal Hospital for Children）的两位作者 Robin Marlow 和 Dora Wood 使用 The BMJ 圣诞特辑过去 10 年阅读量最大的 13 篇文章的标题，来提示人工智能算法模型 GPT-3 生成 57 个类似的标题。

接下来，两位作者分布根据科学价值、娱乐性和合理性对这些标题进行评分，选出 10 个得分最高的标题，和 10 个得分最低的标题。他们将这些标题和 10 篇真正的 The BMJ 圣诞特辑标题混合，随机邀请来自非洲、澳大利亚和欧洲的 25 名专业医生进行评分，评分项目包括是否有趣、是否可信等。

在这篇论文的网络页面上，The BMJ 也将一个互动性测试开放给了读者，请大家根据标题判断，哪些论文是 The BMJ 圣诞特辑真实发表过的，哪些是 AI 生成的。事实表明，有些 AI 编的“论文”，人类很难分辨出来，比如 79% 的人都认为《为什么男人在手术室里也不摘下帽子？

一项横断面观察性研究》（Why do men keep their hats on in the operating theatre? A cross-sectional observational study）是一篇真实发表过的论文。

总而言之，该研究作者们从专业医生中收到的评分结果表明，人工智能生成的标题至少与真实标题一样令人愉快（64% 对 69%）和有吸引力（70% 对 68%），但真实标题被评为更可信（73% 对 48%）。此外，AI 生成的标题总体上被评为科学或教育价值低于真实标题（58% 对 39%），但是当人工调整 AI 输出时，这种差异就变得不显著了（58% 对 49%）。

研究作者表示，这一发现与之前的相关 AI 研究相吻合，表明将机器学习与人类监督相结合，能够产生最理想的结果。

在人工智能生成的标题中，可信度最高的是“棒棒糖治疗喉咙痛的临床有效性”，和“免费美味咖啡对急诊科等待时间的影响：一项观察性研究”。

被受调查者评为最有趣的标题是“用强力胶将你的乳头粘在一起，看看能否帮助你不再为工作中的勃起功能障碍而苦恼”。但研究作者指出，这说明人工智能无法“理解”研究的真实世界应用，以及标题内容会不会冒犯他人。

当然，The BMJ 圣诞特辑的内容本来就娱乐性很强，充满了古怪的标题。作者承认该研究存在一些局限性，但即使考虑到 The BMJ 圣诞特辑的特点，该研究仍然表明“人工智能有可能输出看起来可信的、有吸引力的内容，吸引潜在读者”。

同时，他们强调了人工干预的重要性。研究作者总结：“这一发现反映了人工智能在临床医学中的潜在用途，即为决策提供支持，而不是直接取代临床医生。”甚至在未来，在人工干预的帮助下，人工智能可以提出新的研究假设，和可能的研究方向。