新冠病毒自2019年开始席卷全球,至今仍未完全结束。如今,新冠疫情已经给人们的生产生活造成了极大的干扰和破坏,且新冠病毒只是一大批日益增多的动物传染病病毒中的一种,新冠不是第一种人畜共患病,也不会是最后一种,其他比较“知名”的人畜共患病还包括埃博拉、中东呼吸综合征、西尼罗河热以及裂谷热等等。
很多研究表明,人类活动的扩张、对野生生态的破坏,加剧了某些疾病从动物向人类自身的传播概率。近年来,大多数新出现的人类传染病(如COVID-19)都是人畜共患的——由源自其他动物物种的病毒引起,如果能及早识别这类高风险病毒,则可以改善相关研究和监测重点,有望预防此类疾病未来再次暴发。
9月29日,来自英国格拉斯哥大学的研究人员在PLOS Biology期刊上发表的一篇论文中介绍,他们使用病毒基因组的机器学习技术(一种人工智能模型)可以预测任何动物病毒感染到人类的可能性,这为预测评估人畜共患病潜力提供了一个新工具。
确定人畜共患病的威胁是一项重大挑战,因为在大概167万种动物病毒中,只有其中少数可能会感染人类。现有的人类感染风险模型依赖于新发现病毒未知的病毒表型信息(例如,病毒可以感染的物种多样性),或是病毒毒株的风险水平(如细胞质中的复制能力),这些都限制了所讨论的病毒被表征之前的预测价值。
研究人员认为,由于现在大多数病毒都是使用非靶向基因组测序发现的,通常涉及许多同时发现的表型数据有限,因此理想的方法是仅从序列数据中量化相关暴露后人类感染性的相对风险。目前已有的模型可以从基因组序列中识别出充分表征的人类感染病毒,然而,通过在非常密切相关的病毒(即同一物种的毒株)上训练算法,可能忽略与感染能力相关的病毒基因组的次要特征,此类模型不太可能找到在病毒间泛化的人畜共患病状态信号。
因此,预测可能对当前病毒多样性知识中的大量偏差高度敏感。
基于先前已发表的报告评估人类感染能力的大型病毒数据集,研究人员开发了机器学习模型,该模型可使用从病毒和人类基因组序列中提取的特征,来预测任何动物感染病毒在给定生物相关暴露的情况下感染给人类的可能性。
研究人员从包含动物感染物种的36个病毒家族的861个RNA和DNA病毒物种中收集了具有代表性的基因组序列,将每种病毒标记为能够感染人类,或者不使用已发表的报告作为基本事实,并训练模型对病毒进行相应分类。在这些数据中,识别潜在的或未记录的人畜共患病是研究分析的一个先验目标。
他们首先评估了与人类感染病毒的亲缘关系是否会提高人畜共患病的可能性。
梯度增强机器(GBM)分类器,可根据序列相似性搜索确定的病毒分类学或近亲属中人类感染病毒的频率进行训练。接下来,研究人员量化了根据基因组组成(即密码子使用偏差、氨基酸偏差和二核苷酸偏差)进行训练的GBMs性能,直接从病毒基因组(“病毒基因组特征”)或基于病毒基因组组成的相似性计算不同的人类基因转录本(“人类相似性特征”):干扰素诱导基因产物(ISG)、管家基因和所有其他基因。
此外,为了评估模型的敏感性和特异性,研究人员将来自袋装模型的人类感染预测概率的平均值转换为二元分类(即,人类感染与否),将预测概率>0.293的病毒预测为人类感染。这些二元预测正确地确定了71.9%的主要或完全感染人类的病毒,以及69.7%的人畜共患病毒为人类感染,尽管病毒家族之间的表现各不相同。
由于二元分类忽略了迭代之间的变异性和病毒相对于彼此的等级,研究人员又进一步将预测的人畜共患病概率转换为潜在的人畜共患病类别,根据该方案,预计大多数(92%)已知的人类感染病毒具有中等(21.5%)、高(47.1%)或非常高(23.4%)的人畜共患潜力,而只有8%具有低人畜共患病潜力。
基于论文中模型的分析,目前共有18种病毒被认为具有非常高的人畜共患潜力,其中至少有3种(Aura virus, Ndumu virus, Uganda S virus)具有人类感染的血清学证据。在整个数据集中,77.2%的预测具有非常高的人畜共患病潜力的病毒已知会感染人类。
尽管论文提出的模型分析并非旨在最终确定人类感染基因组预测因子的生物学机制,但仍然能够探索特定基因组组成特征、以及特征组如何与人类传染性相关的新兴模式,研究人员进一步详细地探讨了单个特征对模型预测的影响。
最后,研究人员利用两个案例研究说明了该预测框架的实用性。首先,研究人员使用基于基因组特征的组合模型对训练数据中不存在的758种病毒进行了排名,共有70.8%从人类采样的病毒被正确识别为具有非常高或高人畜共患病潜力,其余的人类相关病毒主要被归类为中等人畜共患病潜力,其中3个物种预测具有低人畜共患病潜力。
在从非人类动物或潜在载体样本测序的645种人类感染性未知的病毒中,45.0%被预测具有非常高或高人畜共患病潜力,非常高的人畜共患病潜力类别以Papillomaviridae(34.1%)和Peribunyaviridae(19.5%)为主。
此外,研究人员使用beta回归模型来探索人畜共患病潜力的预测如何在宿主和病毒组之间变化。
分析发现,从人类样本中测序的113种病毒物种的得分始终高于在其他宿主中检测到的那些。尽管来自蝙蝠、啮齿动物和偶蹄动物等被认为是高危宿主的病毒构成了保留数据的很大一部分(来自蝙蝠的病毒甚至超过了来自人类的病毒),但它们并没有提高预测的人畜共患病概率,并且在较高的宿主分类水平上没有检测到差异,这凸显了当前用于病毒发现/报告的采样工作与人畜共患病风险分布之间的潜在差异。
第二个案例研究,则使用了冠状病毒来探索基于基因组特征的组合模型区分同一家族内不同病毒物种和单个病毒物种内不同基因组的能力。研究人员预测了所有目前公认的冠状病毒物种以及62个人类和动物源性沙贝科病毒基因组的人畜共患病潜力,这些基因组目前都被国际病毒分类委员会(ICTV)归类为严重急性呼吸系统综合症(SARS)相关冠状病毒。
他们还发现了另外2种与动物相关的冠状病毒——Alphacoronavirus 1和最近描述的Sorex araneus冠状病毒T14——至少与已知的、高级的、感染人类的冠状病毒一样,或者更有可能感染人类,这些应被视为进一步研究的高度优先事项。
在模型分析结果中,大多数基因组(85.5%)被归类为具有中等人畜共患病潜力,然而,严重急性呼吸系统综合症冠状病毒2(SARS-CoV-2)、来自蝙蝠的密切相关的病毒RaTG13,以及所有5种密切相关的穿山甲相关分离物的检测结果都预测具有很高的人畜共患病潜力。
在一个以基因组为基础的病毒快速发现的时代,研究和监测活动的合理优先级一直是尚未解决的挑战。而这项论文的研究结果表明,病毒的人畜共患病潜力可以从其基因组序列中推断出来,可以回顾性或前瞻性地预测病毒能够感染人类的可能性,能为病毒研究和监测优先事项的决策提供信息,这在很大程度上提供了更先进的选择。
“这些发现为我们使用AI技术从病毒基因序列中提取大量信息提供了一个关键支撑。”论文的作者之一Simon Babayan说道,“基因组序列通常是我们掌握新发现病毒的第一个、通常也是唯一的信息,我们可以从中提取的信息越多,就能越早确定病毒的起源及其可能带来的人畜共患风险。随着更多病毒被表征,我们的机器学习模型在识别稀有病毒方面将变得更加有效,这些病毒应该受到密切监测并优先用于抢先疫苗开发。”
在只需要基因组序列时,研究人员的方法在人畜共患病风险评估的替代模型中具有定量和定性优势,不过,这种新的模型也有很多局限性,例如对病毒多样性的不完整知识可能导致在这种方法下完全错误的优先级。此外,使用来自每个病毒物种的单个示例基因组来最大限度地发现人类感染的普遍特征的可能性,虽能避免对新病毒过度乐观的性能指标,但这种方法的潜在缺点是忽略了尚未被ICTV正式认可的大量病毒的多样性。
从病毒风险评估的角度整体来看,当大多数其他风险因素数据仍然未知时,论文中提出的模型可以更早地利用纯粹基于基因组序列的模型,在病毒发现和基因组测序后立即识别许多潜在的人畜共患病,通过突出最有可能成为人畜共患病的病毒,可以做好进一步的生态和病毒学表征。
此外,研究人员还表示,应用新的模型之后,仍有相当多的病毒可能需要进行验证性测试,在进行重大的研究投资之前,这种需求仍会随着病毒的不断发现而增加。
2020年7月,联合国环境规划署(UNEP)和国际畜牧研究所(ILRI)曾联合发布了一份名为《预防下一次大流行病:人畜共患疾病以及如何阻断传播链》的报告,在旧有经验的基础上,通过采取人类、动物和环境“一体化健康”方法,是遏制未来疾病的暴发的一种举措。
基于AI技术预测病毒传播的可能性固然值得肯定,但为了防止大规模疫情的频繁出现,我们也必须更加谨慎地保护我们的自然生态环境,从解决问题的根源做起。