AI比医生厉害？BMJ发文担忧AI的表现被“夸大”

社会的数字化意味着我们正在以前所未有的速度积累者数据，医疗方面也不例外。据IBM估计，每个人一生中大约会积累100万兆字节的数据，全球医疗保健数据的总量每隔几年就会翻一番。为了处理这些大数据，越来越多的临床医生与计算机科学家和其他相关学科合作，利用人工智能(AI)技术来帮助检测有噪音的信号。

最近的一项预测显示，医疗人工智能市场的价值从2018年的20亿美元将增长到2025年的36亿美元，复合的年增长率将达到50%。AI是一个创新和快速发展的领域，具有改善患者护理和减轻医疗服务沉重负担的潜力。深度学习是人工智能的一个分支，在医学成像领域表现出了特别的前景。随着越来越多的研究成果的发表，各界对医学成像等领域的深度学习研究兴趣日益浓厚。

近一两年，我们常看到一些媒体新闻出现诸如“研究发现，谷歌人工智能比医生早一年发现肺癌”以及“人工智能比医生更擅长诊断皮肤癌”这样的标题。媒体的宣传极大增加了公众和商业对AI+医疗的兴趣，也催化技术加快实施。但实际上，这些标题背后的研究方法和偏倚风险尚未得到详细的检验。

但《英国医学杂志》(BMJ)的研究人员最近警告说，“许多研究和媒体声称人工智能在解释医学图像方面达到与人类专家一样的水平，甚至比专家还好，但实际上AI的质量很差，而且被夸大了，这对患者的安全构成了风险。”为了进一步研究这个问题，伦敦帝国理工学院的研究人员回顾了过去10年发表的研究结果，系统地检查研究设计、报告标准、偏倚风险，并将深度学习算法在医学成像方面的表现与临床专家进行比较。

他们的数据来源于Medline、Embase、Cochrane中央对照试验注册簿和世界卫生组织2010年至2019年6月的试验注册簿，包括了7334份研究记录和968个试验注册。他们通过采用随机试验登记和非随机研究方法，以公认的报告标准为衡量，对深度学习算法在医学影像像中的表现与多个临床专家进行比较。

在随机临床试验中，研究人员发现了仅有10项有关深度学习的记录，其中有2项已经发表，分别是眼科和放射科，其余8项正在或即将招募临床患者进行试验。在第一项试验中，招募了350名在中国眼科诊所的儿科患者，这些患者分别在有无AI平台的情况下接受白内障评估诊断，得到治疗建议。

研究人员发现AI诊断的准确率为87%，而专家医生的准确率达到99%，这些结果明显低于专家医生的诊断准确性，但是AI平台进行诊断的平均时间却比专家的诊断速度快。第二项完成的试验招募了进行肠镜检查的患者，发现AI系统可以显著检测息肉，有较低的误差风险，高度遵守报告标准。而在81个非随机临床试验中，他们发现只有9项研究具有前瞻性，其中只有6人在真实世界的临床环境中进行了测试。

在81项研究中的77项的摘要包含了有关AI与临床医生表现之间的比较，有30%的研究表示AI优于临床医生。为了对研究的结果进行独立审查，他们还对原始数据和代码进行访问时，却受到严重限制，仅有1项研究提供了原始标签数据和代码。通过利用偏倚风险工具对研究进行评估，研究人员还发现有超过三分之二的研究被判定有较高的偏倚风险，遵守公认的报告标准的情况较差。

有四分之三的研究声称人工智能的表现可与临床医生相提并论，甚至更优于临床医生，而只有38%的研究表明需要进一步的前瞻性研究或试验。总而言之，在医学成像领域，很少有前瞻性的深度学习研究和随机试验。大多数非随机化试验不具有前瞻性，存在较高的偏倚风险，并偏离现有的报告标准。大多数研究缺乏数据和代码可用性，而且人类比较器组通常很小。

不过研究人员也指出此次评估研究中的一些局限性，比如遗漏研究的可能性，以及对深度学习医学成像研究的关注，因此研究结果可能不适用于其他类型的人工智能。尽管如此，他们说道，“目前存在着许多关于与临床医生等价或优于临床医生的夸大说法，这在社会层面上对患者安全和人口健康构成了潜在风险。

”他们也警告道，“过分的承诺，会使研究容易被媒体和公众曲解，结果可能不符合患者的最佳利益，也无法最大限度地保障患者的安全，而最好的办法是确保我们有高质量和透明报告的证据基础。”