如果你是一位拼图高手,或许曾经挑战过数百片甚至上千片的拼图。但你想过完成一幅上百万片,甚至再高几个数量级的拼图作品吗?这幅巨大的“拼图”实际上就是国际上许多机构和科学家多年来一直在努力完成的作品,也就是人类基因组研究。最近,这项浩大的工程又迎来了一个里程碑式的成就。科学家首次“从头到尾”(从端粒到端粒)确认了人类X染色体的完整序列,其中不存在任何缺口,它的精确度达到了前所未有的水平。
这一成果也标志着,创造出精确到碱基的完整人类染色体已经成为现实,基因组学研究或许将迈入新的时代。事实上,当我们说起人类基因组测序或者研究时,通常会有一些典型的“错觉”。比如,说到“人类基因组”这个词时,可能总觉得好像只有一种似的。其实我们每个人都有自己的基因组“副本”,而且每个副本都略有不同。而在基因组研究中,通常会采用“参考基因组”(reference genome)的概念。
参考基因组通常是一个由科学家组装的数字的核酸序列数据库,作为物种的一个理想个体的基因代表。人类参考基因组最初来自一些匿名志愿者,基因组参考联盟(GRC)负责对参考基因组进行不定期地更新。2013年,GRC发布了最新的人类参考基因组GRCh38。
尽管经过数十年的努力,目前的人类参考基因组是迄今为止最精确和完整的脊椎动物基因组之一,但它并非一个“一字不差”的完整基因组,其中的DNA序列仍然存在许多“缺口”等待着填补。这就和另一个常见的“错觉”有关。当我们谈到对人类基因组测序,我们脑海里浮现出的画面可能是像“复印机”一样的场景——科学家把一个完整的基因组信息按顺序一点一点“印”出来。但事实却不是这样。人类基因组非常长,包含约60亿个碱基。
任何DNA测序仪器都无法一次性完全读取所有的碱基信息。因此,简单来说,研究人员需要把基因组分成更小的片段,就像把把一幅图画切割成拼图的一小块。然后,再对每一块的信息进行分析,最后把这些短片段拼回到整幅图中去。这也就是为什么科学家的工作更像是在“拼拼图”。在这项新研究中,团队没有选择测序正常人类细胞中的X染色体。相反,它们使用了一种特殊的细胞类型。
这种细胞包含两条完全相同的X染色体,它比一般的男性细胞(XY)多一条X染色体,同时又能避免分析典型的女性细胞(XX)时会遇到的两条染色体的序列差异的问题。研究的第一作者Karen Miga在2018年曾参与一项研究,证明了纳米孔测序技术在创造完整人类基因组序列方面的潜力。研究使用的是一种特殊的纳米孔测序仪,它通过检测单个DNA分子通过膜上的小孔(纳米孔)时电流的变化,对DNA进行测序。
Miga介绍,这些重复性很高的序列曾经被认为十分棘手,但现在,测序技术取得了长足的进步。纳米孔测序技术可以获得包含数十万个碱基对的“超长读取”,这样的长度可以跨越覆盖整个重复区域,从而绕过了一些复杂的挑战。新的突破正是由能够实现“超长读取”的新测序技术实现的。在先前研究的基础之上,新的研究将纳米孔测序与其他测序技术结合,并利用了光学图谱进行整合。
借助这些技术,团队制造出了一个全基因组的组装,它在连续性、完整性和准确性等方面超过了之前所有人类基因组组装,甚至在某些指标上超越了当前人类参考基因组。不过,序列上仍然存在多处缺口。为了获得完整的X染色体,团队不得不手动解决序列中的几个缺口。纳米孔的超长读取解决了两个片段的复制。接下来,剩余的中断部位就是在着丝粒,也可以理解成染色体两条“腿”交叉的地方。
这是一个出了名的难题,因为这里存在着大量重复DNA。在X染色体中,着丝粒包含的高度重复的DNA区域跨越了310万个碱基对。团队成功识别出了重复序列中的变异,将它们作为标记,用这些变异来排列长段的读取,再将它们连接在一起,从而完成了整个着丝粒区域。
下一步则是利用来自多种测序技术的数据的完善策略,从而确保序列中每个碱基的准确性。Miga解释,团队在三个不同的测序平台上使用了一种迭代过程来完善序列,并达到了高精度的水平。染色体核型模式图显示了人类CHM13基因组的全基因组组装,它在连续性、完整性和准确性方面超过了所有先前的人类基因组组装。最右的X染色体被放大了。核型模式图旁边的蓝色和橙色长条代表没有缺口的重叠群。
纳米孔测序除了能提供超长读取之外,还可以检测被甲基化修饰的碱基——这是一种“表观遗传”的变化,也就是说,它不会改变序列,但对DNA结构和基因表达有着重要影响。通过绘制X染色体上甲基化模式的图谱,研究人员能够证实之前的一些观察,并揭示着丝粒内甲基化模式的一些有趣的趋势。新的人类基因组序列来自填补了目前人类参考基因组中的许多缺口,为基因组研究开辟了新的领域。但潜在的挑战依然存在。
比如,1号染色体和9号染色体的重复DNA片段比X染色体上的要大得多。科学家接下来计划继续努力弥合更多未知的“缺口”区域。研究人员相信,我们已经来到了“一个完整基因组序列的时代”。Miga表示:“我们开始发现,这些参考序列中存在缺口的区域,实际上是人类种群变异最为丰富的区域之一,因此,我们一直缺少许多关键信息,它们可能对理解人类生物学和疾病至关重要。”