人类基因组中基因的减少可能会对生物医学产生重要影响,因为,产生蛋白质的基因数量及对其进行鉴定对于研究包括:癌症、心血管疾病等多种疾病至关重要。自从2003年人类基因组测序完成以来,借助于测序技术,来自世界各地的专家一直在努力汇编最终的人类蛋白质组(由基因产生的蛋白质总数)和产生这些蛋白质的基因。这项任务工作量巨大,因为人类基因组的复杂性以及我们大约具有20000个单独编码基因。
研究人员分析了人类主要蛋白质组数据库中被归类为编码蛋白质的基因:通过对GENCODE/Ensembl、RefSeq、UniProtKB蛋白质组数据库进行详细比对后发现了22,210个编码基因,但在只有19446个基因存在于所有这三个注释中。他们分析了2764个基因——它们只存在于这些参考注释中的一个或两个之中,实验证据和人工注释表明:所有这些基因更可能是非编码基因或伪基因。
事实上,这些基因,连同另外1470个存在于三个参考目录中的编码基因,并没有像典型的蛋白质编码基因那样进化。该项研究的结论是,这4234个基因中大部分可能是非编码蛋白质。特雷斯解释说:“研究已经取得了成效,这些基因中300多个基因已经被重新归类为非编码基因或伪基因。”这些结果已经被GENCODE国际联盟纳入了人类基因组新注释中,CNIO的研究人员同样参与其中。
该项工作再次对人类基因组测序15年后人类细胞中存在的真正基因数量产生了质疑。来自英国维尔康姆基金会桑格研究所的费德里科•阿瓦斯卡尔——此项研究成果的第一作者表示:“我们的证据显示,人类可能只有19000个编码基因,但是,我们仍然不了解哪19000个基因才是(编码基因)。
”庞培法布拉大学(Pompeu FabraUniversity)的戴维•胡安(David Juan)是此项研究的参与者,他重申了这些结果的重要性:“令人吃惊的是,这些不寻常的基因中有一些已经被深入研究过,已经有超过100篇科学出版物是基于这些基因会产生蛋白质的假设。”这项研究表明,仍然存在大量的不确定性,因为,编码基因的最终数量可能比现在多2000或少2000。
人类蛋白质组学仍然需要做大量工作,特别是考虑到它对医学界的重要性。