人类基因组是一份不断给予的礼物。近年来,科学家发现了一些所谓的孤儿基因。与那些从我们的灵长类祖先那里遗传得来的基因不同,一些孤儿基因似乎是在我们进化的过程中自发产生的基因序列,它们编码的蛋白质似乎没有任何显而易见的祖先。
在一篇新发表于《细胞报告》杂志上的论文中,一个国际研究团队发现了155个这样的新基因。它们是155个被称为“可读框”的短小的DNA序列,可以产生对健康细胞的生长非常重要以及与一些疾病有关的微蛋白。
我们知道,DNA是由一系列“字母”组成的,这些字母代表着碱基,它们包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种。生物已经进化出各种方法,来确保DNA在复制时能复制出正确的字母序列。
特定的序列是核糖体用来制造特定蛋白质的“配方”。当核糖体在读取一堆碱基序列时,一个由三个核苷酸组成的被称为密码子的序列,会告诉核糖体从哪里开始和终止读码。在起始密码子和终止密码子之间的一段序列,就是可读框。理论上说,可读框可以编码一定长度的蛋白质的DNA。在进行进一步的分析之前,科学家无法确定这样的DNA是否具有遗传效应。
为了解答这个问题,2017年,新研究的第一作者Nikolaos Vakirlis与他的同事开始了研究。然而,这个项目却被搁置了好几年。这是因为在我们的基因组中,有无数个短小的可读框,要筛选其中哪些是功能性的,哪些是无用的,再追踪它们的起源,是一项非常艰巨的任务。2020年,一项发表于《科学》杂志的研究包含了许多已确定具有生物功能的人类的短小的可读框数据集。
利用这些数据,Vakirlis重新开始了他的探索。
在新研究中,研究人员通过将短小的可读框的序列与人类的一些近亲类人猿物种,比如黑猩猩、红毛猩猩、大猩猩、长臂猿,以及其他一些脊椎动物的相同序列进行比较,拼凑出了一棵系统发生树。这个图表描绘了这些物种之间的进化关系。如果某个可读框只出现在人类身上,那么它有可能是人类特有的;但如果它也出现在如黑猩猩等物种身上,那么它可能源自于我们的共同祖先。
这是首个研究这些微小的可读框及其微蛋白的特定进化起源的研究。对于可读框研究来说,这项研究只是了解它们如何参与新基因的制造、人类的进化,以及在健康和疾病中所发挥的作用的开始。要做的工作还有很多,还有大量的可读框有待研究。未来,将会有更多的研究专注于了解这些微小的基因可能会做什么,以及它们是否可能与某些疾病直接有关。当获得了更多的数据时,将有更多有趣的问题可以被解答。