你到底有多少基因?科学家公布人类基因数量引发争议

作者: 宗华

来源: 中国科学报

发布日期: 2018-06-26 07:50:08

科学家在人类基因组项目完成后,仍无法就人类基因数量达成一致,最新研究提出2.1万余个蛋白质编码基因,引发争议。

在人类基因组项目完成十多年后,辨别基因仍是一项挑战。估测人类基因组中基因数量的最早尝试涉及喝醉酒的基因学家、美国纽约冷泉港的一个酒吧以及纯粹的臆测。2000年,人类基因组序列草图仍在绘制中,基因学家正在打赌人类拥有多少基因,赌注从几万个到几十万个不等。近20年后,掌握了真实数据的科学家仍无法就这一数量达成一致。

填补这一空白的最新努力利用了来自上百个人类组织样本的数据,并于日前发表在预印本服务器BioRxiv上。它包括近5000个此前未被发现的基因,其中近1200个携带制造蛋白质的指令。2.1万余个蛋白质编码基因的总数和此前估测相比有大幅提高。不过,很多遗传学家仍不相信所有最新提出的基因都能经得起仔细推敲。

带领团队开展最新研究的约翰斯·霍普金斯大学计算生物学家Steven Salzberg表示,20年来,人们一直致力于此项研究,但我们仍未获得答案。2000年,随着基因组学界就有多少人类基因将被发现的问题展开热烈讨论,Ewan Birney发起了GeneSweep竞赛。如今身为欧洲生物信息学研究所联合所长的Birney在一年一度的基因组学会议期间,在一间酒吧里最先下注。

这场竞赛最终吸引了1000多人参与以及3000美元的累积赌注。关于基因数量的赌注从多于31.2万个到不足2.6万个不等,平均在4万左右。当时,估测的数量范围已经缩小,但仍存在不同意见。基因数量依据被分析的数据、利用的工具以及剔除错误信息的标准而有所不同。

最新计数利用了一个更大的数据集、另一种不同于此前努力的计算方法,以及定义基因的更宽泛标准。Salzberg团队利用了基因型组织表达项目的数据。该项目对从几百具尸体上采集的30多个不同组织的RNA进行了测序。研究人员想辨别出编码蛋白质的基因以及不编码蛋白质但仍在细胞中扮演重要角色的基因。

为此,他们组装了GTEx的9000亿个微小RNA片段并将其同人类基因组进行比对。不过,仅一段DNA被表达为RNA并不意味着它是一个基因。为此,该团队尝试利用各种标准过滤掉噪音。研究人员获得了21306个蛋白质编码基因和21856个非编码基因,远多于两个最广泛使用的人类基因数据库中的基因数量。

由EBI维护的GENCODE基因集包括19901个蛋白质编码基因和15779个非编码基因。由美国国家生物技术信息中心管理的RefSeq数据库拥有20203个蛋白质编码基因和17871个非编码基因。NCBI基因组研究人员、RefSeq之前的负责人Kim Pruitt表示,出现这一差异的部分原因可能是Salzberg团队分析的数据量不同。

不过,还有另外一个重要差异。GENCODE和RefSeq均依赖于人工管理,有人评审每个基因的证据并且作出最终判断。Salzberg团队则完全依赖于计算机程序筛选数据。很多科学家表示,他们需要更多证据以确信最新目录是准确的。协调GENCODE人工注释工作的EBI计算生物学家Adam Frankish介绍说,他和团队已经扫描了Salzberg团队辨别的约100个蛋白质编码基因。

Salzberg认为,一些重复序列可被视为基因。一个例子是出现在RefSeq中并且编码在结直肠癌中过度表达的蛋白质的ERV3-1。Salzberg还承认,位于其团队目录中的新基因有待该团队和其他人确认。

UUID: 63d16485-b6d6-4f92-88a6-5caf2bc19f45

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中国科学报公众号-pdf2txt/2017-2018/中国科学报_2018-06-26_你到底有多少基因?科学家公布人类基因数量引发争议.txt

是否为广告: 否

处理费用: 0.0038 元