和人类一样,基因也有家族——穿越时间的纽带将它们与一位始祖联系在一起。那个祖先不断复制和扩散,每经过一个循环都会有些许改变。过去40年的大多数时间里,科学家们都认为这就是新基因诞生的基本方式——从已有基因的拷贝中产生。原来的版本继续忠实地执行使命,新的版本则获得了演化出新功能的自由。然而,某些基因似乎是要挑战这个最初的观点。它们没有已知的亲戚,和别的基因毫无相似之处。
它们就像分子版的神秘野兽——隐藏在偏远雨林的深处,似乎与地球上其他任何生物都毫不相干。
“孤儿基因”从何而来的谜团已经困扰了科学家几十年。但近几年来,一种曾被视为异端邪说的解释变得越来越有影响力——许多孤儿基因来自所谓的“垃圾DNA”,也就是基因与基因之间神秘的非编码DNA片段。加州大学戴维斯分校的生物学家David Begun形容道:“不知怎的,遗传功能就这样出现了。
”新基因产生的鼓点在老鼠世系的演化历史中,新的基因似乎是集中在几个时间点上出现。大约800万年前的新基因产生高峰与地球走出“雪球”状态的时间一致,在此之前,地球几乎完全是冰封的。最近的一次高峰代表着许多新产生的基因,它们中有许多此后将在演化中消失。
如果所有的基因都是通过复制产生的,它们应该全部在生命起源不就之后产生,也就是大约38亿年前。这种从非编码DNA到基因的转变曾被认为是不可能的。
然而,从酵母、果蝇到老鼠和人类,越来越多来自不同生物的例子已经让大多数专家相信这些从头起源基因(de novo genes)的确存在,一些科学家认为它们甚至可能是很常见的。就在不久前,在维也纳举行的分子生物学与演化学会年会上公布的一项研究新识别出了600个潜在的人类基因。巴塞罗那马尔医院研究所的演化生物学家Mar Albà 作了这场报告。
他说:“人们原来认为从头起源基因是很罕见的,但现在他们开始越来越频繁地发现这类基因。”
研究人员开始意识到,从头起源基因可能是基因组重要的一部分,但依然不清楚它们的数量有多少,功能是什么。更重要的是,这类基因的突变会导致灾难性的后果。德国明斯特大学(University of Münster)的生物信息学家Erich Bornberg-Bauer说:“看来,这些新的基因通常也是最重要的基因。
”成千上万的已知基因家族中,许多基因的产生能够用标准的基因复制模型解释。但这个模型也有局限,它意味着绝大多数新基因的创造活动在生物演化史的极早期就都完成了,35亿年前最早的生物大分子就已创立了一系列遗传学的基本结构单元,之后生命每历经一轮循环都只能对这些结构单元做细微的改动。
然而,如果生命的工具箱内容如此有限,今天地球上如此丰富多彩的生物王国又是如何通过演化产生的呢?
Bornberg-Bauer指出:“如果新的零件只能从旧的产生,我们将很难解释演化过程中根本性的变化。”20世纪90年代,随着DNA测序技术的兴起,第一条证据出现了,它说明严格的复制模型是不足以解释所有基因的起源的。在分析酵母基因组的过程中,研究人员发现有三分之一的酵母基因和来自其他生物体的已知基因没有相似性。当时,许多科学家认为这些孤儿属于还未被发现的基因家族,但这个假设没有得到证实。
近十年来,科学家对成千上万种生物的DNA进行了测序,但许多孤儿基因依然没能被归类,它们的来源依然是一个谜。2006年,Begun发现了第一个证据,非编码DNA中的确能产生新的基因。他比较了标准实验室果蝇(Drosophila melanogaster)和其他果蝇物种的基因序列。
不同种果蝇的基因组大部分是相似的,但Begun和他的同事发现了几个基因,它们仅仅在一两个物种中存在,意味着它们不是已有基因祖先的后代。Begun 提出,果蝇非编码DNA的“随机”序列可能可以通过突变转化为有功能的基因。
然而,从随机的DNA序列中创造基因看起来几乎是不可能的,这简直就像是把一罐印了字母的积木块随意地倒在地上,指望它们能自动拼成一句通顺的句子。
“垃圾DNA”必须积累一定的突变,使它能被细胞读取、转录为RNA,或是成为调控元件,指示基因应该在何时何地被激活。并且,和句子一样,基因也要有开头和结尾,一定要有短序列指明它在哪里开始、又在哪里结束。此外,基因产生的RNA或蛋白质必须是有用的。新产生的基因可能是有害的,可能会产生有害蛋白,就像阿尔茨海默病患者大脑中凝集成块的蛋白质一样。
图森市亚利桑那大学的生物学家Joanna Masel告诉我们:“蛋白质很容易错误折叠并带来破坏。鉴于随机序列的产物会造成很多麻烦,这就很难解释它们是怎样制造出有用的新蛋白质的。”Masel正在研究演化是怎样解决这个问题的。Begun的假设面临的另一个挑战是,把从头起源基因和那些经历巨变后与不再与祖先相像的基因区分开来不是件容易的事。(确定真正的从头起源基因很有难度,这依然是该领域内争论的来源之一。
)
十年前,马普演化生物学研究所的生物学家Diethard Tautz和许多研究人员一样,对Begun的想法持怀疑态度。Tautz找到了孤儿基因产生的另一种解释:一些神秘的基因演化得非常快,使得它们与祖先的相似之处难以被辨识;另一些则由已有基因碎片的重新组合产生。后来,他的研究团队偶然发现了Pldi基因,这个基因是用前阿森纳球员波多尔斯基(Lukas Podolski)的名字命名的。
小鼠、大鼠和人类都有这段序列。在后两个物种里,这段DNA保持沉默,也就是说不会被转化为RNA或蛋白质。它只在小鼠里有活性,能够被转录为RNA,并且有着重要的作用。
雄性小鼠如果缺失这个基因,它们的精子将会游动得更迟缓,睾丸会更小。研究人员成功追踪到了将这段沉默的非编码DNA转化为活性基因的一系列变异。这项研究显示,该基因的确是从头产生的,而不是属于已有的基因家族,只是在演化过程中变得面目全非了。
Tautz说:“这时候我想,好吧,它(从头起源基因)一定是可能的。”科学家正在测试一些计算的方法,来确定随机的DNA序列突变为功能基因的概率有多大。哈佛大学研究人员 Victor Luria根据突变率、重组率(使DNA产生变化的另一种方法)和自然选择的一般估算建立了一个模型。
用这个模型计算,在让与人类基因组长度相仿的一段DNA序列经历了100万代的突变和重组后,一些随机的DNA片段演化成了有活性的基因。如果他加上了自然选择的影响的话,这个大小的基因组可以产生成百上千的新基因。
蜂拥而至的新基因科学家现在已经确定了不少支持基因从头产生的明白无误的例子:酵母中一个决定有性还是无性生殖的基因;果蝇和其他双翅目昆虫中一个关键的飞行基因;还有一些只在人类中发现的基因,它们的功能尚未查明。
在今年的分子生物学与演化学会年会上,Albà及其合作者发布了他们的成果。
使用强大的RNA分析新技术,他们在人类和黑猩猩的基因组中鉴别出了几百个推定为从头起源的基因,这个数目是此前研究得到的基因数目的整整10倍。Albà小组找到的600个人类特有的基因中,80%是全新的,之前还从来没有被发现过。不幸的是,破译从头起源基因的功能要比鉴别它们困难得多。但至少,它们中的一部分不是等闲之辈。证据表明,一部分新基因很快变得至关重要,比如果蝇20%的新基因是生存所必需的。
还有很多新基因带有自然选择的痕迹,说明它们对生物体有所贡献。至少有一个人类的新基因在脑中表达得很活跃,使得一些科学家猜测这样的基因可能推动了脑的演化。还有的突变与癌症相关,说明它们在细胞中有着重要的功能。都柏林圣三一学院的遗传学家,曾鉴定了第一个人类的从头起源基因的Aoife McLysaght说:“功能失常会导致如此严重的后果,这说明该基因的正常功能很重要,或是它能造成很大的影响。”
对从头起源基因的研究也在促进一个更大的观念转变,它们改变了我们对蛋白质形态和功能的理解。从头起源基因通常很短,产生的蛋白质比较小。传统的看法认为蛋白质应该会折叠成一个精确的结构,而从头起源的新蛋白有着更为无序的结构,这让它们较为松弛,能够和种类更多的分子结合。用生物化学的说法,这些新生的蛋白质是混杂(promiscuous)的。
科学家对这些短链蛋白质的行为依然知之甚少,很大程度上是因为常规的筛查技术容易忽略它们。
大多数寻找基因及其相应蛋白质的手段会挑出与已知基因相似的较长序列。Begun说:“我们很容易漏掉它们。”这样的现状正在改变,科学家意识到了短链蛋白质的重要性,正开始采用探测基因的新技术,从头起源基因的数目很可能因此而有爆炸式的增长。
Masel说:“我们还不知道这些较短基因的具体功能,对于它们的生物学功能,我们还有很多要探索。”科学家还想弄清一个特别令人困惑的问题:从头起源基因是怎样整合入驱动细胞运作的复杂反应网络的。
这就像一辆自行车自发长出了一个新零件,又很快地将它整合进自己的机械装置之中,尽管没有这个零件自行车也能很好地运作。Begun说:“这个问题非常有吸引力,但也是完全未知的。
”一个叫做ESRG的人类特有基因是这个谜团很好的例子,它的一些片段在猴子和其他灵长类中也有发现。但这个基因只在人类中有活性,并对维护最初的胚胎干细胞非常重要。可是,猴子和黑猩猩无需它也能很好地制造胚胎干细胞。McLysaght指出:“这个人类特有基因执行的功能必定先于此基因存在,因为其他生物也有这些干细胞。”
“新基因如何获得功能?它又是如何成为细胞生命过程的一部分?”McLysaght说,“对我来说,这是眼下最为重要的问题。”