1月31日,印度德里大学和印度理工学院的研究人员在生物预印本网站 bioRxiv 发表了一篇文章,称2019新冠状病毒棘突蛋白中含有独特的插入序列,并与艾滋病毒的HIV-1 gp120和Gag蛋白有奇特的相似性。这篇论文已被很多同行批评是“一项极不严谨且选择性使用数据的研究”,其作者在2月2日撤稿。
最近,北京大学医学部的科学家,通过独立的生物信息分析,发现印度学者的论文存在数据选取不当、统计分析方法违背基本规范,论证过程毫不严密等失误之处,结论错误。
近日,某印度研究团队在预印本网站BioRxiv上发布题为“Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag”的研究报告,认为“武汉新型冠状病毒有可能并非自然界产物”。
该文于1月31日上传至生物预印本网站bioRxiv(该平台刊登研究团队的文章草稿,并未经过同行评议,无法当作严谨的科学论据)。
此文的刊出在学术界引起了巨大的波澜,以哈佛大学 Eric Feigl-Ding 教授和刘如谦(David Liu)教授、我国中国科学院石正丽教授、清华大学张林琦教授、浙江大学王立铭教授等为代表的多位学者,对这篇文章中缺乏科学价值的结论和带有某种程度引导性的措辞提出了质疑和批评。
北京大学医学部病毒生物信息学团队在印度研究报告发表的第一时间就展开了独立的分析验证。简单讲,1)印度研究首先通过将新型冠状病毒与其他病毒序列进行多基因系统发育的分析,得出结论新型冠状病毒与SARS病毒亲缘关系最近;2)继而,通过比较 2019-nCoV 和 SARS-CoV 的Spike蛋白序列,认为新型冠状病毒S蛋白存在4段插入序列;进一步与病毒序列数据库比对,认为这些序列可能来源于HIV。
北大医学团队的分
析验证工作发现该研究从数据分析到结论存在多处根本性错误,现逐条分析如下。第一,如下图所示,新型冠状病毒(2019-nCoV)与一种蝙蝠冠状病毒(即RaTG13)亲缘关系最为接近,而非文中提及的SARS病毒。第二,所谓新型冠状病毒S蛋白的4段插入序列,其中三段序列可以在已知的蝙蝠冠状病毒中找到,第四段也与已知的蝙蝠冠状病毒有较强的相似性,并非来自HIV。
第三,所谓的插入序列在动、植物等多种物种中存在。文中发现的插入序列仅有7~12个氨基酸残基,不仅可以比对到HIV病毒基因(包含数百个氨基酸残基)的某一局部片段,同样可以完全一致地比对到果蝇、霉菌、扁豆等各种生物基因上。因此,从生物统计角度讲,所谓的“新型冠状病毒添加有HIV序列”的观点不能成立。
为了排除“这些序列的一致结果出自偶然”这一可能性,在统计学上,应该基于比对结果的E-value进行筛选。E-value指的是在随机的情况下,其它序列与目标序列相似度要大于这条显示的序列的可能性,因此,这个值越小,或者说越接近0,越能说明两条序列同源的可靠性高。通常认为当E值小于10-5时,表明两序列有较高的同源性,而不是随机结果造成的。而且当目标序列过短时,E值会偏大。
从上图可以看到,大量完全匹配的序列的E-value远远高于这个水平,无法说明这4条短序列与任一匹配上的序列具有同源性。但原文作者却并没有报道对E-value进行限制这一常规过程,无可避免地引入了大量的假阳性结果。
综上所述,印度学者的论文存在数据选取不当、统计分析方法违背基本规范,论证过程毫不严密等失误之处,其结论错误。
生物信息学是一个严谨的学科,为了避免大数据分析中普遍存在的假阳性错误,需要遵循规范、严格的研究规范。但在本次疫情中,少数研究团队基于缺乏方法规范的生物信息学分析结果,提出了一些吸引公众注意力的观点。这或是由于似懂非懂的跨界而无意得出了错误结论,或是由于种种考虑而对明显的假阳性结果进行错误解读。公众应以谨慎的态度看待这样的结果,本领域的研究人员也有责任及时向公众进行解释,共同渡过疫情难关。