早在100多年前的19世纪,孟德尔(Gregor Mendel,1822-1884)盯着修道院花园里的豌豆,就开始思考为什么有的豌豆会开出白花,长出皱皮的种子。这个科学史上最孤独的天才,通过观察豌豆的突变性状,总结出了超越时代的基因分离定律和基因自由组合定律。在21世纪的今天,生命科学领域已步入信息化的进程中,生物信息学在生物研究中也越来越重要。
人类基因组计划(HGP)使我们意识到基因组本质上只是一种抽象编码,只要我们能将这本“天书”读懂、读透,那我们就可以解锁生命的奥秘。事实表明,人类基因组中存在着大量的遗传突变,其中只有少部分可以导致明显的遗传性状,相对而言,更多的遗传变异仅从外表上是看不出来的,但并不意味着这些变异并不会对机体健康造成影响。由此可见,对这些遗传变异进行功能性研究是十分必要的。
近日,国际顶尖学术期刊Nature上同时发表4篇重磅论文对一个新的、迄今最大规模的人类遗传变异体数据库——基因组聚集数据库(gnomAD)进行报道。此外,Natrue子刊Nature Medicine、Nature Communications等也有gnomAD相关的论文发表。
在第一篇文章中,研究人员描述了人类测序研究到基因组聚合数据库(gnomAD)的125748个外显子和15708个完整基因组的数据集。通过对测序和注释错误造成的人工产物进行筛选后,研究小组确定了443769个高可信度的预测功能缺失变异。通过基于人类基因变异率的改进模型,研究人员对这些遗传变异进行分类,从对生理机能几乎没影响到导致严重的健康问题,以便更好地发现造成常见遗传病和罕见遗传病的基因。
在第二篇文章中,研究人员报告了3个关键的发现——关于使用功能丧失突变评估候选药物靶点。总而言之,此项研究结果为人类基因敲除研究提供了路线图,并指导对药物开发中功能缺失变异的解释。在第三篇文章中,研究人员基于gnomAD的14891个来自不同全球种群(54%非欧洲)的基因组构建了一个SVs的参考图。研究人员发现,不影响基因功能的单核苷酸变异(SNVs)与缺失和重复突变之间存在很强的相关性。
此外,他们还发现了顺式调控元件中针对非编码SVs的适度选择。最后,研究小组确定了3.9%的样本中有罕见的SVs(数据量非常大),并且估计0.13%的个体可能携带符合现有临床重要偶然发现标准的SNVs。在第四篇文章中,研究人员开发了一个转录级注释度量——“跨转录本表达的比例”,它量化了遗传突变的不同转录本的表达。
研究小组通过11706个组织样本量化了计算了这个度量,并表明它可以区分弱保守外显子和高度进化保守外显子,后者代表了功能的重要性。研究人员证实基于表达的注释选择性地过滤了在gnomAD中的错误注释,同时删除了同一基因中不到4%置信度的致病性遗传变异。此项研究成果将有助于罕见病的遗传诊断、分析多系统疾病中的罕见变异体负担。
总而言之,gnomAD是目前规模最大、覆盖面最全的人类遗传变异体数据库,这一宝贵的生物信息资源将有助于科研工作者进一步解读人类基因组信息,从而为人类彻底战胜常见或罕见遗传病再添基石!