人类的本质是复读机?从基因上看确实如此。不仅每个人体内都有过半的重复DNA序列,而且每个人重复的方式还都不一样。重复多了,还可能得病。
在人类基因组中,有一种“自私的垃圾”DNA,它们包含大量类似 GAGAGAGAGA 这样的重复序列,甚至可以占据基因组的一半以上。而它们却不编码蛋白质。所以如此聒噪、狂刷存在感,是要干啥?今天我们要讲的就是这些“垃圾”DNA,看它是真垃圾,还是假垃圾。
生物越复杂,DNA未必越多。常见的生物都有基因组,它是生物体中包含的DNA(部分病毒是RNA)中全部遗传信息的总和。我们或许直觉地认为,物种越复杂,其基因组中包含的 DNA 就越多。但人们很快发现,事实并非如此:对不同物种,个体细胞中所含的 DNA 的量不仅差异巨大,而且与决定生物复杂性的基因数量似乎并无多少关系。
1970年前后,科学家们发现,基因组上有一些 DNA 并不转录出 RNA,从而也不直接参与蛋白质的合成,它们叫非编码 DNA。对不同物种,非编码DNA在基因组中所占比例有所差别,有时甚至占到九成以上。
1980年,四位科学家在《自然》上发表文章,认为DNA可以分为两种:特异性的和非特异性的。前者负责蛋白质合成,在细胞里勤勤恳恳地工作,但只占一小部分。后者则有三个特点:其一,基因组里的大部分 DNA 都是此类;其二,它们通过已有的 DNA 拷贝扩展而来;其三,也是最重要的,无用!
一些证据显示,这些“自私的DNA”并非完全无用。比如在一些物种中,基因组的大小跟细胞周期和世代时间(生物从一次繁殖结束到下一次繁殖结束的时间间隔)有关。所以,或许我们不应该急着将这些冗余 DNA 扔进垃圾桶。
40多年后的今天,全基因组测序越来越便宜,也越来越普遍了,我们对人类基因组的认识早已今非昔比。科学家发现,人类基因组里除了与编码蛋白质有关的特异性 DNA 序列之外,还有相当一部分重复DNA序列——正是它们决定了人类的“复读机”本质。
基因测序结果表明,在同一人类个体的基因组中,这些序列有的重复几次,有的重复成千上万次;其中既有长达1000~200 000个碱基对的片段重复,也包括短的简单序列重复;重复的基本单位有时只有一个碱基(比如AAAAAAAAAA),有时包含几个碱基(比如CACACACACAC和CAGCAGCAGCAG)。它们加起来甚至可以占到人类基因组的一半以上!
科学家逐渐了解到,那些曾被认为是垃圾、自私且毫无用处的重复DNA序列,对基因表达和决定生物性状至关重要。以简单序列重复(简称STR)为例,虽然它们只占人类全基因组的3%,但分布极为广泛。据估计,有超过10万个STR位点遍布基因组的各个角落。它们既可以直接出现在编码序列中,直接影响DNA的翻译产物蛋白质,又可以处于调控序列中,间接影响基因表达。
有趣的是,STR虽然是看似冗余的重复序列,在每个人体内的重复方式却并不一样。即使是同一STR位点,在不同个体中,其基本单位的重复次数也有较大差异。这就像是,我们的基因组虽然都有着复读机的本质,但每个人的复读方式却又独一无二。
实验证实,STR与人体的数十种疾病有关,且主要为神经肌肉性疾病,比如舞蹈征、肯尼迪病、肌萎缩侧索硬化等。其中与舞蹈征有关的 STR 位点位于一个特定基因中,如果它的基本单位的重复次数小于30次,患者就不发病;重复次数越多,则发病年龄越小,症状越严重。
2021年1月13日,《自然》上发表的一项新研究还发现,STR的突变与自闭症有关。研究人员分析了1637个家庭的全基因组数据,结果发现,罹患自闭症的儿童,他们基因组上的STR突变数量明显比未患病的兄弟姐妹高出一截。而且与导致舞蹈征的STR突变不同,这些导致自闭症的STR突变并不局限于一个特定的基因,而是与很多基因都相关。
除了研究疾病,STR序列还因为具有如指纹般的独特性,在现实生活中有广泛应用。比如身份认定、亲子鉴定、产前检查等。2008年,美国洛杉矶的警察就曾通过比对嫌疑人和凶手的STR序列,追踪到二十多年前一桩连环强奸杀人案的真凶。美国 FBI 则建立数据库,在国家范围内收集罪犯或失踪人员的 STR 序列信息,以提高破案率。
眼下,基因测序已经非常普及,要把每个人的基因组测个明明白白,并非难事。不过,就像猴子可以打出一串字母,但并不知晓意思一样,我们也远未明白这些 DNA 序列的含义。它们与RNA、蛋白质如何相互作用,又如何影响我们的生命特征,许多未知问题仍有待严谨的生物医学探索。但,关于重复序列的价值讨论早已没有疑义:我们是复读机,但不是垃圾。