人类的本质是复读机?从基因上看确实如此。不仅每个人体内都有过半的重复DNA序列,而且每个人重复的方式还都不一样。重复多了,还可能得病。
在人类基因组中,有一种“自私的垃圾”DNA,它们包含大量类似GAGAGAGAGA这样的重复序列,甚至可以占据基因组的一半以上。而它们却不编码蛋白质。所以如此聒噪、狂刷存在感,是要干啥?今天我们要讲的就是这些“垃圾”DNA,看它是真垃圾,还是假垃圾。
常见的生物都有基因组,它是生物体中包含的DNA(部分病毒是RNA)中全部遗传信息的总和。我们或许直觉地认为,物种越复杂,其基因组中包含的DNA就越多。但人们很快发现,事实并非如此:对不同物种,个体细胞中所含的DNA的量不仅差异巨大,而且与决定生物复杂性的基因数量似乎并无多少关系。
1970年前后,科学家们发现,基因组上有一些DNA并不转录出RNA,从而也不直接参与蛋白质的合成,它们叫非编码DNA。对不同物种,非编码DNA在基因组中所占比例有所差别,有时甚至占到九成以上。
1980年,四位科学家在《自然》上发表文章,认为DNA可以分为两种:特异性的和非特异性的。前者负责蛋白质合成,在细胞里勤勤恳恳地工作,但只占一小部分。后者则有三个特点:其一,基因组里的大部分DNA都是此类;其二,它们通过已有的DNA拷贝扩展而来;其三,也是最重要的,无用!
40多年后的今天,全基因组测序越来越便宜,也越来越普遍了,我们对人类基因组的认识早已今非昔比。科学家发现,人类基因组里除了与编码蛋白质有关的特异性DNA序列之外,还有相当一部分重复DNA序列——正是它们决定了人类的“复读机”本质。
科学家逐渐了解到,那些曾被认为是垃圾、自私且毫无用处的重复DNA序列,对基因表达和决定生物性状至关重要。以简单序列重复(简称STR)为例,虽然它们只占人类全基因组的3%,但分布极为广泛。据估计,有超过10万个STR位点遍布基因组的各个角落。它们既可以直接出现在编码序列中,直接影响DNA的翻译产物蛋白质,又可以处于调控序列中,间接影响基因表达。
实验证实,STR与人体的数十种疾病有关,且主要为神经肌肉性疾病,比如舞蹈征、肯尼迪病、肌萎缩侧索硬化等。2021年1月13日,《自然》上发表的一项新研究还发现,STR的突变与自闭症有关。研究人员分析了1637个家庭的全基因组数据,结果发现,罹患自闭症的儿童,他们基因组上的STR突变数量明显比未患病的兄弟姐妹高出一截。
眼下,基因测序已经非常普及,要把每个人的基因组测个明明白白,并非难事。不过,就像猴子可以打出一串字母,但并不知晓意思一样,我们也远未明白这些DNA序列的含义。它们与RNA、蛋白质如何相互作用,又如何影响我们的生命特征,许多未知问题仍有待严谨的生物医学探索。