研究：现有新冠病毒诊断AI模型，几乎毫无用处

新型冠状病毒对全球健康造成了严重的威胁，为了减轻医疗保健系统的负担，也给患者提供最佳的护理，高效的诊断和疾病预后信息问题亟待解决。理论上来说，在医疗资源有限的情况下，评估感染者风险和感染结果的多变量模型可以帮助医务人员对患者进行分类。从基于规则的评分系统到深度学习模型，大量预测模型都是开源的，并允许同行评论分析。

顶级综合医学期刊《英国医学杂志》(The BMJ)上发表的一项研究，便对现有的新冠模型进行系统性评估，主要包括以下三种功用的模型：普通人群风险预测模型、实际感染者的诊断模型、新冠患者的预后模型，评估的部分包括模型开发和外部验证研究。然而，结果却不尽人意。可以说，现有的新冠病毒诊断AI模型，几乎无用武之地。

这支研究小组通过Ovid、bioRxiv、medRxiv、arXiv、PubMed和Embase等学术系统，收集了2020年1月3日～2020年5月5日之间发布的covid-19文献。如果一篇文献与基于新冠结果研究的多变量模型或评分系统相关，团队就将它纳入研究。最终，他们收集到总共包括三种类型的预测模型：普通人群中新冠风险的预测模型、疑似患者中实际感染者的诊断模型、新冠患者的预后模型。

预测因素或结果对参考人群、预测范围没有限制。而另外的一些模拟疾病传播或死亡率、诊断测试准确性和发现预测指标等相关研究不予考虑。从第二次系统性评估开始，相关文献由AI驱动的文本分析工具检索，以优先考虑灵敏度。研究者通过EPPI-Reviewer对标题、摘要和全文进行重复筛查，对于有争议的文章，则通过讨论选取。

研究使用基于CHARMS（针对预测模型研究的系统评价的严格评估和数据提取）清单和PROBAST（偏倚风险评估工具）的标准化数据分析表来评估预测模型。通过系统搜索，研究者检索了14209个标题，整个筛选过程如下图所示：PRISMA（为系统评价和变换分析选取报告）研究是否采纳文献的流程图。最终筛选出的107项研究，团队使用PROBAST评估，这是一项专门为预测模型偏倚风险设计的评估工具。

结果发现，有53项在训练集（参考人群）方面存在较高的偏倚风险，也就是说，模型的参考人群可能无法代表目标人群。其中26项研究都没有对偏倚评估风险作出清楚的报告。有15项对预测集存在很高的偏倚风险，这表明预测变量并不一定适用于模型，定义不明确或受预测结果影响。研究者对一项诊断成像研究使用了简单的评分规则，它呈现了较低的预测偏倚风险。

因为该文献缺乏有关预处理步骤（例如图像裁剪）的明确信息，而复杂机器学习算法是用一种复杂的方式将图像转换成预测因子，分析人员对原模型的预测因子尚不清楚，这其实就很难评估它的偏倚风险。大多数模型使用易于评估的结果（例如，死亡、确诊等），而在19项研究中仍存在因结果评估引起的偏倚的担忧，比如使用了主观或代理结果（例如，非新冠的严重呼吸道感染）。

除了一项研究之外，所有其他研究在分析的数据集上都有较高的偏倚风险。许多研究的样本量较小，这导致过拟合的风险增加，尤其是在使用复杂的建模策略的情况下。三项研究没有报告模型的预测性能，四项研究仅报告了表面性能（训练集和测试集相同，未对潜在的过度拟合进行调整）。只有13个研究评估了校准，但两项研究中检查校准的方法可能欠佳。

其中一个研究的25个模型使用了外部验证的方式（在一个独立的数据集中验证，训练集和测试集分开），但在其中的11个模型中，用于外部验证的数据集可能无法代表目标人群。还有一个研究使用了新冠疫情之前的数据。因此，如果将模型应用于目标人群，则预测效果可能会有所不同。在一项研究中，通常用于预后（区分、校准）的性能统计数据没有公布。但也有表现还不错的模型。

Gozes、Fu、Chassagnon、Hu、Kurstjens和Vaid等人的研究在外部验证集上具有令人满意的预测性能，但尚不清楚他们是如何收集外部验证数据的，以及数据是否具有代表性。Wang、Barda、Guo、Tordjman和Gong等人的研究在可能没有偏倚的验证数据集上获得了令人满意的效果，但是数据集的数据量少于外部验证应有的数据量（100）。

Diaz-Quijano的研究也具有不错的外部验证效果，但由于未进行聚合酶链反应（PCR）测试，因此数据集中的许多患者不得不被排除在外。目前，社会可能亟需诊断和预后模型来帮助医务人员更加快速有效地投入工作，这也许会促使政府和医疗机构过早地实施预测模型。但介于所有的145个预测模型都有很大的偏倚风险，并且所有模型都缺乏外部验证的证据，在新冠疫情的大背景下，模型的过早使用可能弊大于利。

因此，研究人员不建议目前在实践中使用任何模型。他们也推荐，未来的模型研究应侧重于验证、比较、改进和更新有前途的可用预测模型，而非着力开发新的预测模型。