十万个亚当和夏娃

作者: 大卫·赖克

来源: 湛庐文化

发布日期: 2019-09-08

本文探讨了基因组中包含的众多人类祖先的来龙去脉,指出基因组并非来自单一祖先的连续序列,而是由多个不同祖先的基因组经过重新组合形成。文章强调了基因组中隐藏的丰富历史信息,并讨论了通过基因组序列追溯历史的可能性及其局限性。

1987年,当记者罗杰·勒温将今天所有人的共同母系祖先称为“线粒体夏娃”的时候,他唤起了一个新的创世故事——一位女性的创世故事。这位女性就是我们所有人的母系祖先,她一个人的后代遍布全世界。这个名字激发了大众的想象力,不仅公众喜闻乐见,很多科学家也使用这个称号。

但其实这个名字很具误导性,它会造成一种错误的印象,也就是我们所有的DNA都分毫不差地来自两位具体的祖先个体,如果要研究人类的历史,只要追踪由线粒体DNA所代表的纯粹母系,以及Y染色体所代表的纯粹父系就可以了。正是受到这种可能性的鼓舞,美国国家地理学会于2005年启动了“基因地理工程”,收集了来自不同人群的近百万线粒体DNA和Y染色体的数据。但是,这个工程甚至在它开始之前就已经过时了。

它在很大程度上只有娱乐意义,几乎不会有任何有意思的科学发现。其实,人们已经把线粒体DNA和Y染色体所携带的、与人类历史有关的信息挖掘得差不多了,但是别忘了,全基因组中还隐藏着大量的更加丰富多彩的故事,正等待着我们去挖掘呢!基因组中包含了许多不同的人类祖先的来龙去脉——事关成千上万的、独立演化的支系,绝不仅仅是Y染色体和线粒体DNA所记载的两个支系。

为了理解这一点,人们需要认识到,除了线粒体DNA外,基因组并不是来自某一个祖先的连续序列,而是由多个不同祖先的基因组经过重新组合而形成的。人体细胞内的46条染色体各自携带着独立的DNA长链,它们就像46块瓷砖一样拼接在一起。一个基因组内包括23条染色体,每个人从父母那里各自继承了一个基因组,所以染色体数目总计是46个。但是,染色体本身也是由更小的单元拼接组成的。

举例来说,一位女子的一个卵细胞在卵巢里的发育过程中发生了染色体的拼接重组,将来自父方和母方的染色体副本混合在一起,结果是卵子中染色体的前1/3来自她的父亲,而后2/3来自她的母亲。在女性产生卵子的过程中,平均会出现约45次新的染色体拼接重组,男性产生精子过程中则平均有26次,总计每一代会产生71次。于是,如果我们从每一代人开始回溯的话,一个人的基因组就可以看作是由其祖先们的染色体片段拼接形成的。

这说明,在我们的基因组内有众多祖先留下的遗传成分。每一个人的基因组都来自自己携带的47段DNA,也就是来自母亲和父亲的46条染色体,再加上线粒体DNA。向前倒推一代,这个数字成了从父母那里遗传得到的约118段(47+71)DNA。倒推两代,就变成了从4个祖父母那里得来的约189段(47+71+另一个71)DNA。

倒推回去十代,就是约757段从祖先那里来的DNA,而这一代祖先个体的总数是1024位,这就意味着有好几百个祖先的DNA并没有被继承下来。倒推二十代,祖先个体的数目就要比基因组中留存下来的DNA片段数量多出上千倍了。可以确定的是,任何一个人,都无法从他的绝大多数家谱中的祖先那里继承哪怕是一点点的DNA。绝大多数祖先没有直接对你的DNA做出贡献。每回溯一代人,祖先的数目就加倍。

然而,能对你产生遗传贡献的DNA片段在每一代中只增加大约71个。这意味着,如果你追溯到八代或者更多代以上,几乎可以肯定有一些祖先的DNA没有遗传给你。追溯到第十五代,某个祖先能直接对你的DNA做出贡献的比例就微乎其微了。这样的计算结果表明,如果要给一个人建立家谱的话,从历史记录中得到的结果和从实际基因组传承中得到的结果是不一样的。

在《圣经》和王室编年史中,都记录了很多代“谁生了谁”这样的信息,比如诺曼底公爵威廉一世在1066年成为英国国王,人们相信他是女王伊丽莎白二世的第二十四辈祖先。但即便家谱是准确的,女王伊丽莎白二世也几乎不可能从他身上继承任何DNA。这并不说伊丽莎白二世没有从她的第二十四辈祖先那里继承DNA,而是说在这一代总计16777216个祖先中,只有1751位对她的DNA产生了贡献。

这个比例实在太低了,威廉一世要想成为伊丽莎白二世的遗传学意义上的祖先,那得从成千上万条的DNA传承路径中脱颖而出才行。即便考虑到英国王室较高的近亲结婚比例,这点也是几乎不可能的。我们回溯的时间越长,一个人的基因组就被分散到越来越多的祖先DNA片段中,涉及的祖先人数也会越来越多。如果追溯到5万年前,我们的基因组将会分散到超过10万个祖先的DNA片段上去,这个数字可比当时任何一个人群的人口都要多。

所以,对于那些生活在遥远过去的个体,只要他们的后代数目足够多,我们都可以几乎肯定,现在的每一个人都从他们那里继承了部分DNA。尽管如此,通过比较基因组序列的方法来获取古代历史信息也有一定的局限性。对于基因组里的每一个位置,只要我们往回追溯的时间足够悠久,那么一定能碰到一个节点,这个节点就是当今所有个体的共同祖先,超过了这个节点我们就无法再获得更久远的信息了。

从这个角度来看,基因组中的每个位置上的共同祖先就仿佛是天体物理学中的黑洞,一旦到了这个节点就没有信息可以从中逃逸了。对线粒体DNA而言,这个节点是在16万年前,也就是“线粒体夏娃”生活的时代。而对基因组中剩余的部分,绝大多数的黑洞发生在500万年至100万年前。所以,分析这些部分的信息,可以让我们追溯到比线粒体DNA所能提供的要深远得多的历史。但是如果再要往回看,那就只有漆黑一片了。

在众多的遗传支系中追踪历史、寻幽探微,这种做法威力无穷。从我看来,基因组并不是一个当下之物。我常常抚今思昔,将其看成一幅挂毯,上面的每一丝都代表着某一个遗传谱系,每一缕都记录着人类从古至今、代代相传的DNA。通过条分缕析,我们能追溯到遥远的过去,越来越多的祖先会现身说法,向我们诉说每一代人类群体的规模和组成结构。

例如,如果我们说一个非裔美国人拥有80%的西非人血统和20%的欧洲人血统,这等于是在昭告天下,大约在500年前,在欧洲殖民主义所掀起的人口迁移和融合之前,这个人的祖先中,有80%的部分可能住在西非,其余的部分则可能住在欧洲。这样的表述,就像一部电影里的静态帧一样,仿佛是在过去的某个时间点上截了一张图。同样,我们也可以说,10万年前,当今非裔美国人这个支系上的祖先们,绝大多数都住在非洲。

UUID: 44a08125-fa84-4e40-a8b4-64b3f2e1fef0

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/原理公众号-pdf2txt/2019年/2019-09-08_十万个亚当和夏娃.txt

是否为广告: 否

处理费用: 0.0058 元