2020年4月8日,一篇新冠病毒(SARS-CoV-2)群体遗传学的论文在《美国科学院院刊》(PNAS)上线,来自德国法医遗传学研究所等单位的Peter Forster等人对病毒基因组序列进行了进化分析,结果显示以东亚地区病毒为主体的病毒类群并不是最古老的。有媒体将其解读为新冠病毒起源于美国和澳大利亚。这里,本文尝试从学术角度探讨该论文的数据代表性和分析方法可能存在的问题。
Forster等的主要证据在该论文唯一的一幅图里,Forster等人展示了新冠病毒的单倍型网络(haplotype network)。他们将新冠病毒分为A、B、C三个类群(由红圈标记的字母所示),发现东亚地区的病毒样本大多在B类群,而欧美和澳大利亚则多为A类群。
他们将蝙蝠携带的冠状病毒序列(RaTG13)同样置于该单倍型网络,并与这三个类群的新冠病毒进行比较,发现A类群在序列上距离RaTG13最近。科学界普遍接受蝙蝠是冠状病毒的自然宿主之一,因此作者认为A类群的新冠病毒更为古老。
单倍型网络分析是一种基于基因序列推测进化关系的方法。本图中,每个节点为一种病毒序列,节点越大说明该病毒序列在已测序的样本中数目越多,节点内部的饼图则反映样本的国家或地区来源比例;节点之间的连线长度则反映了从一条序列进化为另一条序列所需要的突变数目。
Forster等人将全球各地的新冠病毒分为了三个类群。这个分类合适吗?在回答这一问题之前,不妨先了解一下中科院北京基因组所国家基因组科学数据中心绘制的单倍型网络。该中心提供的最新数据如下图所示。来自于国家基因组科学数据中心,图的下方展示了病毒样品的采集时间。录制于2020年4月11日。
来自于国家基因组科学数据中心的单倍型网络翔实程度远胜于Forster等人的文章,更重要的是该网络可以按照样品的采集时间展示单倍型网络模式经历的剧烈变化。目前的单倍型网络与Forster等人文章中的截然不同。这并不意外,因为Forster等人的文章上线之时(2020年4月8日),GISAID数据库的新冠病毒基因组序列有大约4800条,而Forster等人只分析了其中早期的160条(约3%)。
即使时间前推至该文章送审的3月17日,当时GISAID数据库的序列也已超过了800条(Forster等分析了其中不到20%);更何况在文章修回和正式上线之前,作者始终都有机会更新数据。那么,160个早期的病毒样品是否已经有了足够的代表性追溯病毒的起源了呢?如果我们相信早期的病毒样品都采集齐全时确实可以。然而,我们今天仍然存在着对病毒更古老类群的讨论,恰恰是因为担心早期的样本没有采集齐全。
即便假设Forster等人的文章将新冠病毒划分为A、B、C三个类群是站得住脚的,那么,主要流行于欧美和澳大利亚地区的A类群病毒是否更为古老?Forster等人给出了肯定的答案,他们的依据是在单倍型网络中A类群更靠近蝙蝠来源的病毒序列RaTG13。事实上,RaTG13并不能对新冠病毒内部的进化关系进行区分。为什么这么说?
RaTG13确实是目前已知进化上距离新冠最近的病毒,然而其与新冠病毒的基因组差异仍然达到约4%——这比人和黑猩猩DNA序列的差异还要大。4%大致对应于RaTG13与新冠病毒1200个碱基的差异,而目前已测序的大多数新冠病毒之间的差异不足10个碱基。根据新冠病毒每年约24个碱基的变化来推断,RaTG13大致在25年前就已经与新冠病毒分道扬镳了。
这对于新冠这样一个迅速繁殖的病毒来说,是一个极其“漫长”的进化过程。
值得注意的是,在Forster等的文章配图中,不知出于什么考虑将RaTG13置于与A类群仅相差17个突变的位置。这可能会让读者产生RaTG13的序列与新冠病毒差异不大的错觉。也许有人会认为,图中少画一些差异碱基,并不影响得出“A类群距离蝙蝠来源病毒更近”的结论。这听上去好像也有些道理,但实际情况却并非如此简单。
想象一下你站在一条笔直的马路上,身边有两个电线杆。从现在的视角看来,两个电线杆界限分明;但随着你沿马路越走越远,再回望时会发现两个电线杆在你的视野中越靠越近;当你走出肉眼分辨率的极限之后,两个电线杆在你眼中成了同一片模糊的区域——因此,如果要对事物进行区分,需要选择合适的观测尺度。
使用RaTG13判断目前已采集的这几千个新冠病毒谁更古老,恰恰就是超出了合适的尺度。
具体而言,在下面的这个进化树中,每条黑线的末端都是一个病毒样品,样品的名称标记在了黑线的延长线上(字很小,但不是线,线都在圆心位置附近),黑线的长度则反映了基因组序列的差异程度。出现在进化树底部的是RaTG13;其他的是新冠病毒,它们由于序列过于相近而聚集在一起。可以看出,蝙蝠来源的序列与新冠病毒的差异实在太远,以至于“站在”RaTG13的位置已经无法对新冠病毒内部的进化关系进行区分。
在较小的进化尺度上,突变是偶然事件,两个病毒共享一个突变往往意味着它们拥有共同的祖先或者“亲缘”关系更近——这也是进化树构建的基本原理。但是基因组中存在一些特别容易出现突变的区域,称为突变热点(mutation hotspot)。一旦超出了一定的进化尺度,在亲缘关系较远的个体中,突变热点就有可能独立产生出现同样的突变(被称为反复突变,recurrent mutation)。
然而,在对基因组序列进行进化分析的时候,我们不知道序列的相似性究竟来源于共同祖先还是反复突变,仍然会按照它们拥有共同祖先推断亲缘关系,这就会产生错误。在分子进化领域有一个专业词汇“长枝吸引效应”(long branch attraction),就是描述这种由于进化距离过于遥远导致错误推断进化关系的情况。
由于长枝吸引效应的存在,用于构建进化树的序列不应在进化距离上存在巨大的差异(都长也可以,都短也可以,但是不能长短不一),否则可能严重影响其可信度。
Forster等人使用RaTG13作为“外群”的研究中,就很可能受到反复突变的影响,原因是新冠这个RNA病毒确实存在突变热点:如下图所示,在Forster等的文章配图中多次出现四个点四个边连接的封闭四边形,这就是在过去几个月中同一突变独立发生于不同病毒个体上的证据。这种多次独立发生的同一突变在更大的尺度上就会对进化关系的推断造成干扰,甚至导致错误。
无可否认,PNAS是学术界的主流期刊,因此文章能够发表在该刊物常常也可以为其学术的严谨性背书。然而,PNAS的审稿机制存在一些与众不同的地方。正如该期刊名称《美国科学院院刊》所反映的,PNAS在1914年创建之初就是作为美国科学院院士的出版场所而存在的——院士署名贡献的文章(contributed)或者院士出面“沟通”(communicated)的文章才能得以发表。
直到1995年,PNAS才开始试行普通作者的直接提交(direct submission)。院士出面沟通的论文发表方式至2010年中止,但是院士目前仍然可以以通讯作者(或共同通讯作者)的身份向PNAS提交论文,并指定至少两位学者作为公开的评阅人(也就是说评阅人名字会在发表的文章中公布)。PNAS大约25%的文章属于这一类别。如下图所示,Forster等人的文章就是这其中之一。
Colin Renfrew为英国剑桥大学的考古学家,也是美国科学院外籍院士。PNAS这一制度当然有其积极的意义:如果一篇文章由于超前于时代难以通过正常的同行评议发表,这一机制将是让该学术思想获得广泛传播的一种途径。但同时也存在一些隐患,可能让本来不够严谨的研究得以迅速发表。在制度上,PNAS要求贡献文章的院士需是该文章所在领域的专家。
然而,贡献Forster等人这篇文章的美国科学院外籍院士Colin Renfrew是英国考古学家和古生物学家,以放射性碳定年、史前语言和防止考古现场的掠夺性挖掘方面的工作而闻名。
Forster等人文章上线后受到了同行的普遍质疑。英国爱丁堡大学的Andrew Rambaut是分子进化方法学以及病毒进化领域的国际知名专家(Hindex高达115——有115篇论文被引用了至少115次)。
他评论到:“这篇文章存在很多严重的错误,包括它的内容、结果和发表的途径。”他指出,“第一个错误在于使用蝙蝠冠状病毒RaTG13对新冠病毒的进化树进行定根。这虽然是最接近新冠病毒的‘非人类’病毒,但与新冠病毒仍然有1100个核苷酸以上的差异。注意,(Forster等人文章的图中)蝙蝠病毒所在的进化枝不知为何比实际要短一些。
”新冠病毒进化的权威网站Nextstrain负责人Trevor Bedford同样对文章表达不满:“这不是一篇好文章,没有比几周前就已经有人完成了的工作多出什么内容。A、B、C类群的划分不但太简化、有误导性,而且也是错的……”
如果蝙蝠冠状病毒RaTG13不能用于确定病毒的祖先,那还有什么其他办法吗?
首先,如果我们能找到新冠病毒的中间宿主并分离出其携带的冠状病毒,将有很大机会通过进化遗传学方法判断新冠病毒的祖先。其次,截至2020年4月12日23点,已有6365条新冠序列提交到GISAID数据库。这些序列可以用于根据进化的分子钟推测病毒在人群中开始扩散的时间,原理详见《赛先生:缺乏早期样品,还能追溯回病原体扩散的第一天吗?》。
第三,对于新冠病毒,旅行记录在一定程度上也可以为单倍型网络的连线赋予进化方向,辅助祖先的推测。
需要说明的是,病毒起源的定义在不同的语境下常常极其模糊。病毒像其他生物一样,在随机突变的不断积累中进化。如果一个病毒原本就在人群中存在一定程度的传播,在某一时刻突变获得了迅速扩散的能力并导致了肺炎的症状,那么这个病毒开始感染人类的时间和地点与在人群中暴发的时间和地点就并不相同。
在这种情况下,病毒究竟应该算起源于何时何地呢?在这个意义上,新冠病毒的恐怖之处不止于对人类身体的摧残,更在于其对精神的割裂。武汉同胞即使已经为战胜疫情做出了巨大的牺牲,但在很多地方仍然遭受区别对待;国家、地区或人群的名字依然被用作病毒的定语。
我们反对“中国病毒”的称呼,同时,我们也需要反思并纠正其他将地名与病原菌或疾病相联系的命名,例如“西班牙流感”、“埃博拉病毒”、“寨卡病毒”、“中东呼吸综合征”……
注:作者吴蕾为中国科学院大学研究生。本文部分来源于研究生课程《群体遗传与分子进化》的授课内容。