人工智能为《英国医学杂志》圣诞研究文章生成标题的观察性研究

来源: The BMJ

本研究评估了人工智能(AI)为《英国医学杂志》潜在的圣诞研究文章生成合理且吸引人的标题的能力。结果显示,AI生成的标题至少同样有趣和吸引人,尽管真实标题被认为更合理。人类筛选提高了AI生成标题的科学和教育价值。研究强调了人类在指导AI和筛选其输出中的重要性,并展示了AI在医学文献生成方面的潜力。

目的:确定人工智能(AI)是否能为《英国医学杂志》潜在的圣诞研究文章生成合理且吸引人的标题。

设计:观察性研究。

背景:欧洲、澳大利亚和非洲。

参与者:1项AI技术(生成预训练变换器3,GPT-3)和25名人类。

主要结果指标:GPT-3生成的潜在圣诞研究文章标题与历史对照的合理性、吸引力、娱乐性和教育价值。

结果:AI生成的标题至少同样有趣(159/250响应(64%)v 346/500响应(69%);比值比0.9,95%置信区间0.7至1.2)和吸引人(176/250(70%)v 342/500(68%);1.1,0.8至1.4),尽管真实标题被认为更合理(182/250(73%)v 238/500(48%);3.1,2.3至4.1)。

AI生成的标题总体上被认为科学或教育价值较低(146/250(58%)v 193/500(39%);2.0,1.5至2.6);然而,当人类对AI输出进行筛选时,这种差异变得不显著(146/250(58%)v 123/250(49%);1.3,1.0至1.8)。最合理的AI生成标题是“阴谋论信仰与接受疫苗意愿之间的关联”,评级最高的是“免费美食咖啡对急诊室等待时间的影响:一项观察性研究”。

结论:AI可以为《英国医学杂志》潜在的圣诞研究文章生成合理、有趣且科学上有趣的标题;正如医学其他领域一样,人类干预提高了性能。

机器学习和人工智能(AI)的最新发展可能会在未来十年内彻底改变医疗实践的某些方面。尽管简单的基于人类应用规则的算法在医疗环境中已经使用了数十年,但计算机处理能力的最新发展和可用数据的指数级增长已经能够开发出无需人类干预即可优化其性能的系统。这些系统已经在非医疗环境中常规使用,例如在社交媒体上定位广告或感兴趣的文章,以及生成艺术和音乐。

越来越多的证据表明,当这些算法能够访问大型影像数据库时,它们已经可以有效地用于诊断乳腺癌和肺癌、视网膜疾病和颅内出血,其准确性与人类专家相当。1 这些工具可能很快就能在医疗实践的其他领域提供决策支持,并且正在开发报告AI和机器学习研究的框架以满足这一需求。2AI的详细描述超出了本文的范围,但本质上,AI由多层神经网络组成,这些网络本身是一组链接的算法,其输出被调整为共同响应特定输入的刺激。

大多数传统AI都是任务特定的(即,在一个标签数据形式上进行训练),因此它们成为例如图像分类或下棋的专家。更新的方法允许通过识别大规模数据集中的模式进行无监督学习。然而,一旦开发,AI就是隐喻的黑盒子,具有输入和输出,但无法解释或询问其工作原理;如果在一个具有未知内在偏差的数据集上进行训练,AI可能会以难以检测的方式继承这种偏差。3

目前最先进的通用语言AI是OpenAI(旧金山,加利福尼亚)开发的生成预训练变换器3(GPT-3)。GPT-3使用包括整个维基百科和书籍及网站集合在内的1750亿个不同文本项目进行训练。4 从启动提示开始,GPT-3能够进行翻译、回答问题,甚至撰写报纸文章。5 GPT-3是一种商业产品,由于对其潜在滥用的担忧,它只能通过提交提案并被接受进入Beta计划来访问。

尽管传统上认为计算机无法进行创新或独立思考,但鉴于技术的发展,评估AI为医学研究生成有价值假设的能力似乎是及时的。自1982年以来,《英国医学杂志》每年都出版一期特别的圣诞版,其中结合了基于证据的科学和更轻松或古怪的主题的文章。6 在这项研究中,我们确定了AI为《英国医学杂志》潜在的圣诞研究文章生成的标题是否符合结合科学价值与吸引人和娱乐主题的要求。

我们采用了《英国医学杂志》过去10年中阅读量最高的13篇圣诞研究文章的标题,并使用这些标题构建了一个提示,指导GPT-3生成类似标题(补充文件)。两位作者独立对GPT-3生成的57个标题进行了科学价值、娱乐性和合理性的1至6分评分。我们使用此过程的平均综合评分对标题进行排名,并选择了10个评级最高和10个评级最低的新生成的标题。

尽管我们对AI为《英国医学杂志》圣诞研究文章生成标题的文献进行了广泛审查,但我们未能识别出任何可以提供所需样本量的文章。为了通过这个小研究反驳我们的零假设,即AI将无法生成合理标题,我们使用了一个方便的25名医生样本,这些医生来自不同专业和背景:儿科医生、成人内科医生、全科医生和麻醉师来自非洲、澳大利亚和欧洲。参与者需要自我声明他们熟悉《英国医学杂志》圣诞特刊的内容和格式。

然后,他们被要求完成一个包含10个随机选择的圣诞研究文章标题的在线调查,这些标题来自《英国医学杂志》的档案,以及10个评级最高和10个评级最低的AI生成文章标题(图1)。标题以随机顺序呈现给每位参与者,并对其所属的三个类别(真实文章、AI生成的前10名和后10名标题)进行盲法处理。参与者被告知列表包含真实和AI生成的标题,但没有每个类别的比例。

使用七级Likert量表(绝对不是、可能不是、可能不是、不确定、可能、可能、绝对),参与者根据四个陈述对每篇论文进行评分:这是真实的BMJ论文;我想阅读这篇;这会很有趣/有趣地阅读;这会具有科学/教育价值。他们还被要求选择30个标题中最合理和最有趣的一个。

我们评估了GPT-3在没有人类干预的情况下生成标题的能力,通过比较真实标题与正面Likert评分(5至7)的比例与10个最高和10个最低评分的标题与正面评分的比例。为了确定人类筛选是否对AI有益,我们在真实标题和10个最高评分的标题之间进行了相同的比较。使用序数回归测试组之间的统计显著性。数据使用R版本4.0.5、7 Tidyverse、8和Likert包进行分析。

尽管本文的主题并不直接适用于特定患者群体,但我们确实与患者讨论了这项研究。我们还要求公众成员在提交后对我们的手稿发表评论。

当《英国医学杂志》真实圣诞研究文章的标题与AI生成的前10名和后10名标题的组合列表进行比较时(图2),真实标题被认为更可能是实际文章(182/250响应(73%)v 238/500响应(48%);比值比3.1,95%置信区间2.3至4.1;P<0.001),并且更可能具有科学或教育价值(146/250(58%)v 193/500(39%);2.0,1.5至2.6;P<0.001)。

AI生成的标题与真实文章标题同样吸引人阅读(176/250(70%)v 342/500(68%);1.1,0.8至1.4;P=0.49),并被评为同样有趣(159/250(64%)v 346/500(69%);0.9,0.7至1.2;P=0.55)。

当真实标题与人类筛选的前10名AI生成标题进行比较时(图3),真实标题仍然被认为更可能是实际文章(182/250(73%)v 147/250(59%);2.2,1.6至3.0;P<0.001),并被认为具有教育价值(146/250(58%)v 123/250(49%);1.3,1.0至1.8;P=0.08)。

选定的前10名AI标题仍然被评为与真实标题同样吸引人阅读(176/250(70%)v 185/250(74%);0.9,0.6至1.2;P=0.45)和有趣(159/250(64%)v 180/250(72%);0.8,0.6至1.1;P=0.25)。

当参与者被要求选择最合理的标题时,10(40%)选择了AI生成的标题——最受欢迎的是“阴谋论信仰与接受疫苗意愿之间的关联”。对于最有趣的标题,只有六(24%)参与者选择了一篇真实文章(图4)。

在这项小研究中,AI为《英国医学杂志》潜在的圣诞研究文章生成的标题至少与《英国医学杂志》圣诞特刊中实际文章的标题一样有趣和吸引读者。真实标题在合理性方面显著优于AI生成的标题(无论是人类筛选的还是未筛选的),尽管无法区分固有合理性与参与者对《英国医学杂志》之前发表的圣诞研究文章的熟悉程度。一些著名的文章偶然包含在我们的样本中可能大大歪曲了结果。

唯一两个被评为最合理和最有趣的标题是“医院病房巧克力的存活时间:秘密观察性研究”(在其出版月份中是第三大访问量的圣诞研究文章,有298,841名读者)和“免费美食咖啡对急诊室等待时间的影响:一项观察性研究”,现在是我们为《英国医学杂志》2022年圣诞特刊的潜在提交。

当我们考虑样本文章的感知科学价值时,未被人类选择的AI生成标题明显比真实标题表现更差。当应用后续的人类筛选步骤时,AI生成标题的表现进入了真实标题的范围。这一发现与之前的AI工作相符,表明最佳结果来自于将机器学习与人类监督相结合。9 人类和机器决策都受输入质量和数量的限制。人类在心理上受到他们可以审查、保留和处理的数据量的限制,而机器则更可能受输入方法的限制。

在我们的研究中,GPT-3“了解”了先前成功文章标题的主题、用词和关联,但没有作者和研究参与者共享的临床实践经验。尽管人类可能会看到关于临床医生睡眠剥夺对重症监护病房死亡率影响的现实世界研究应用,但AI,以其输入,认为这并不比在工作时将超级胶水应用于乳头作为勃起功能障碍的分散注意力更有用,也无法理解标题是否具有冒犯性。

我们研究的一个限制是我们将《英国医学杂志》圣诞特刊中接受发表的文章与GPT-3的输出进行了比较。如果使用了更广泛的样本,GPT-3的表现可能会更好。

尽管我们的研究可能是首次考虑使用AI生成研究文章标题并确定这些文章对潜在读者的吸引力,但对使用AI生成研究假设的兴趣正在增长。例如,有人提议,主要由临床前研究人员用于识别潜在目标和生物标志物的Euretos平台,可以基于已发表的论文生成假设,随后由专家审查确定哪些是适当的研究方向。10

我们研究的结果强化了人类在指导AI和筛选其输出中的基本作用。然而,最近AI和机器学习的进展几乎肯定会改变医疗工作的方式,无论是通过提高诊断速度和准确性、决策支持还是减少医疗错误。AI有可能改变我们选择和与医学文献互动的方式;我们的研究是这些技术也可能改变我们生产文献方式的早期展示。

即使在像《英国医学杂志》圣诞特刊中出现的古怪标题的背景下,AI也有潜力生成合理、吸引人且可能吸引潜在读者的输出。然而,吸引兴趣只能通过专家指导来实现,因为我们的研究中的一些文章标题是无关或冒犯的。这一发现反映了AI在临床医学中的潜在用途,作为决策支持而不是完全替代临床医生。技术与数字化的最新平行进展导致了人工智能(AI)和机器学习的快速发展。

在医学中,AI的早期应用主要围绕图像识别和诊断,但具有广泛应用的巨大潜力。最新的AI系统能够进行高级语言识别、解释和生成。由AI生成的《英国医学杂志》潜在圣诞研究文章标题与《英国医学杂志》圣诞特刊中发表的真实标题一样吸引和娱乐读者。通过额外的人类干预阶段,标题在潜在科学和教育价值方面也表现相似。AI可能在生成未来研究的假设或方向方面发挥作用。

数据集和完整可重复代码可在https://doi.org/10.5281/zenodo.5681251获取。贡献者:RM和DW设计了研究并起草了论文。他们都是担保人。RM收集和分析了数据。通讯作者证明所有列出的作者都符合署名标准,并且没有其他符合标准的人被遗漏。资金:无。

竞争利益:所有作者已完成ICMJE统一披露表,并声明:提交工作无任何组织的支持;过去三年内无任何组织对提交工作有利益关系;无其他可能影响提交工作的关系或活动。通讯作者(RM)确认手稿是对报告研究的诚实、准确和透明的描述;没有重要方面被遗漏;任何与计划研究不符的差异都已解释。参与者和相关患者及公众社区的传播:结果在参与者参与后发送给他们。

我们将通过社交媒体渠道、教育会议和新闻稿与更广泛的社区分享我们的结果。出处和同行评审:未委托;外部同行评审。这是一篇根据知识共享署名-非商业性4.0国际许可协议分发的开放获取文章,允许其他人在非商业基础上分发、混音、改编、在此作品的基础上构建,并在不同的条款下授权其衍生作品,前提是原始作品被正确引用且使用是非商业性的。

UUID: 50b24231-42ac-4e7b-b5c6-f2a47aa480a9

原始文件名: /home/andie/dev/tudou/annot/2021年英语网页/Ghost in the machine or monkey with a typewritergenerating titles for Christmas research articles in The BMJ using artificial intelligence observational study The BMJ.txt

是否为广告: 否

处理费用: 0.0111 元