2003年,人类基因组计划完成,揭开了人体30亿个碱基以及约20000多个蛋白编码基因的秘密。然而这些基因只占人类基因组的2%。因此,在随后的20年时间里,科学家一直在尝试寻找人类剩余98%的DNA具有什么功能。现在,一项名为DNA元件百科全书计划(ENCODE)的系列研究朝着这一目标取得了重大进展,该研究第三阶段发现了120多万个基因调节元件,以及它们何时、何地调节基因的“开关”。
《自然》《自然-方法》和《自然-通讯》发表的14篇论文合集描述了这一结果,为基因组组构和功能带来了新的认知。Nature杂志官网ENCODE合集目前,这一系列研究的数据已对外开放。
正如来自美国国家人类基因组研究所(NHGRI)的Eric Green博士所说,“ENCODE3的主要目标之一就是开发可以与更广泛的研究团体共享ENCODE实验数据的方法,这有助于扩大我们对基因组功能的理解,ENCODE3开放了搜索和可视化工具,从而使科学工作者可以更快捷的访问这些数据。”探索基因的奥秘人体由数千种、数万亿个细胞组成。
尽管所有的细胞都来自同一个受精卵,共用一套基因组,但是不同类型的细胞(例如,心脏细胞、肺部细胞以及神经细胞)可以通过激活基因组中不同的基因来执行不同的功能。深入了解基因调控机制,有助于更好的了解人体细胞发育以及疾病发生的机制。功能性元件是指编码具有调控基因作用的分子产物或生化活动的DNA区域。ENCODE计划于2003年启动,致力于绘制人类与小鼠基因组功能性元件的综合图谱。
作为一项广泛协作的基础研究工作,ENCODE计划涉及来自美国和国际各地的小组,由500多名具有不同专业知识的科学家组成。得益于世界各地独立研究人员进行的数十年基因调控研究,并以此为基础,ENCODE研究人员创建了一个社区资源,以确保任何研究人员均可访问该项目的数据。
为了进一步阐明基因以及各种调控因子之间相互作用的细节,ENCODE3研究人员进行了近6000次实验,包括人类实验4834次,小鼠实验1158次。ENCODE3研究人员研究了胚胎小鼠组织的发育过程,以了解在小鼠发育过程中发生的各种基因组和生化变化的时间表。小鼠由于其与人类的基因组和生物学相似性,可以帮助我们了解人类的发育和疾病发生。
根据ENCODE已经绘制出的数百万个元件,研究人员还建立了一个在线注册库,里面包含了926535个人类的和339815个小鼠的候选顺式调节元件(调节基因转录的非编码DNA区域),覆盖到各自基因组的7.9%和3.4%。此外,研究人员利用ENCODE的数据集揭示了决定部分功能性元件作用方式的原理,分析了DNA、与DNA结合蛋白、RNA的化学修饰如何相互作用以调控基因的表达。
ENCODE3的结果也有助于解释蛋白质编码区以外的DNA序列变异如何影响基因的表达,甚至是距离特定变异本身很远的基因。基因组中的DNA“开关”,调节了基因何时何地被打开(来源:Ernesto Del Aguila III, NHGRI.)连接RNA和疾病此前,人们主要依靠染色质免疫共沉淀测序(ChIP-seq)技术来检测DNA调控元件的序列。
这一技术可以帮助研究人员识别DNA结合蛋白与DNA的结合位点,从而确定这些DNA序列的功能。然而,这一技术不会检测参与基因调控的RNA元件。因此,研究人员采用了增强紫外交联免疫沉淀结合高通量测序(eCLIP)技术,该技术可以使用紫外线将RNA分子与细胞内的RNA结合蛋白交联,然后用特定的抗体分离RNA结合蛋白,并对与之结合的RNA进行测序。
RNA结合蛋白在细胞中具有多种生物学功能,例如剪切蛋白质编码信使RNA、终止转录、增强蛋白质翻译、翻译后分解RNA以及将RNA引导至细胞中特定的位置。确定与RNA结合蛋白想结合的RNA可以更详细的阐明相关RNA分子的功能。不过,RNA结合蛋白结合位点是转录组中的候选功能元件,并不是所有的RNA结合蛋白结合位点,因此需要用其他类型的方法进行补充实验以评估其功能。
为此,研究人员首先对大约150个RNA结合蛋白进行了增强紫外交联免疫沉淀结合高通量测序(eCLIP),然后在人体细胞中敲低部分RNA结合蛋白表达,通过结合两个实验的数据,检测这种敲低对与RNA结合蛋白相结合RNA分子的影响。同时,研究人员还采用了一种称为RNA Bind-N-Seq的技术能够更精确地缩小RNA结合蛋白和RNA结合位置。
通过这些技术,每对一种蛋白质进行实验,研究人员可以发现大约350种与之相关的RNA结合蛋白以及相关RNA。这些RNA结合蛋白的功能取决于其与相应RNA的结合位点。结合这些实验的数据,研究人员可以制作一个图集,描述RNA结合蛋白的功能以及相应的RNA结合位点。这套图谱可以帮助研究人员弄清楚RNA结合蛋白每种结合模式的特点,也就是为什么RNA结合蛋白在某一位置会激活,但在另一个位置则会抑制。
此外,来自蒙特利尔大学Lecuyer教授的研究小组,还使用荧光蛋白标记了300多个RNA结合蛋白以确定它们在细胞中的位置,以帮助科学家更多地了解每一个RNA结合蛋白的功能以及与之结合的RNA。对此,UCONN Health遗传与基因组科学系教授兼主席Brenton Graveley博士表示:“ENCODE3中生成的数据极大地增进了我们对人类基因组的了解。
该项目有助于我们更清晰的认识以前的数据类型(例如DNA结合蛋白和染色质标记)以及新的数据类型(例如长距离DNA相互作用和蛋白质-RNA相互作用)。”尚未完成的百科全书《自然》同时发表的一篇的“观点”文章也指出,这个尚未完成的百科全书已经成为了解基因调控和遗传易感性疾病的经典工具。
在ENCODE项目即将到来的第四个阶段中,通过使用高通量功能基因组技术,我们将兴奋地看到这些调控元件是否实际上执行了根据组蛋白修饰和结合蛋白推断出的功能的系统评估。而在单细胞分辨率下,将ENCODE扩展到更广泛的生物领域(如疾病样本和罕见细胞类型),将有助于研究人员利用基因组信息诊断和预防疾病。