一个数据越少，科学家越高兴的数据库

当谈到前沿、未被完全探索的领域时，你会想到什么？是地球上的海底深处，还是遥远的太空？其实，在我们人体中，就存在许多仍有待发现的未知奥秘。最近，来自英国剑桥大学和牛津大学的研究人员创建了一个新颖、开放的基因数据库。有别于多数其他常见的数据库，研究人员期待，随着时间的推移，这个数据库中的数据只会越来越少，而不是越来越多。

他们将这个数据库命名为“unknome”，这是一个由“unknown（未知）”和“genome（基因组）”构成的合成词，表示未被充分研究但具有潜在重要性的蛋白质及其相应的蛋白质编码基因。8月8日，研究人员在期刊《公共科学图书馆·生物学》上一篇论文中对这个新的数据库进行了描述，并表示“unknome”数据库的存在，凸显了我们目前对人类基因和蛋白质的诸多不了解。

人类基因组编码了大约2万种蛋白质。

然而，在这其中，有数以千计的蛋白质，是由已知存在却功能未知的基因所编码的。造成这部分蛋白质没有得到充分研究的原因有很多，比如本就稀缺的研究资金和同行评审系统，都偏向于研究那些已知的、具有功能性或临床重要性的蛋白质；再比如由于缺乏抗体或小分子抑制剂等特异性试剂作为工具，大多数科研项目都更倾向于关注丰富且广泛表达的蛋白质。

在新的研究中，研究人员认为，无论造成这种局面的原因是什么，这种显而易见且正在加剧的忽视会带来问题，因为可能有一部分甚至是大量这样的蛋白质，都在关键的细胞过程中发挥了重要作用，并且有可能为治疗干预提供见解和目标。为了解决这个问题，研究人员决定开发这样一个对所有人开放、可修改的数据库。

具有共同进化祖先的蛋白质，通常可被归为一个蛋白质簇。

在Unknome所包含的所有蛋白质簇中，都至少有一种蛋白质是来自人类或11种常见的模式生物。在unknome所包含的超过13000个蛋白质簇、近200万种蛋白质中，unknome会根据对与每簇蛋白质的相应基因的了解程度，对每个蛋白质打出一个“认知”分数。数据表明，有3000个蛋白质簇的“认知”得分为零，其中805簇中至少含有一种人类蛋白质，这意味着人类基因组中还有很多东西需要了解。

在新发表的研究中，研究人员从数据库中选择了260个果蝇和人类共有的“认知”分数很低的基因（1分及以下）。通过在果蝇中降低这些蛋白质的编码基因的活性后，研究人员发现，大约有60个基因对生命至关重要，其他的一些则与繁殖、生长、运动和抗压力能力息息相关。这表明，即使是在像果蝇这种已经被研究得非常充分的生物中，也有许多新的事物有待发现。

基于这个系统，研究人员发现有成千上万种蛋白质的“认知”得分几乎为零，其中包括许多模式生物和人类基因组的蛋白质。

研究人员尚不清楚这些基因是否对人类也有着类似的影响。但是，unknome数据库可以帮助研究人员更快速地筛选出更容易研究的生物体（如果蝇）中的相似蛋白质，进而梳理出重要的人类蛋白质，这对未来的疾病治疗和药物发现等研究都将起到重要作用。接下来，研究人员希望能够对这些神秘的蛋白质进行大规模的系统研究。