蛋白质是一类重要的生命大分子,参与组成了机体所有的重要部分。它是生命的物质基础,也是生命活动的主要承担者,可以毫不夸张地说,没有蛋白质就没有生命。人们针对蛋白质的研究从未间断过,但同为蛋白质,不同的种类所受的关注度却是天差地别。到目前为止,大多数蛋白质的研究都集中在有限的一些蛋白质上,结果是热门的蛋白质正在越来越被人们所熟知,冷门的蛋白质的生物学功能,人们仍然知之甚少。
今年,Georg Kustatscher等六国科学家联合发起了一项名为“未充分研究的蛋白质计划”的调查,并分别在Nature Methods和Nature Biotechnology上发表了两篇文章,呼吁学界通过系统地关联未表征的蛋白质和已知功能的蛋白质,缩小两者之间的注释差距,从而为详细的机制研究奠定基础。
蛋白质注释偏差的原因是多方面的,有些是实际操作的原因,例如,抗体、质粒或精心打造的参考数据等实验工具有力地推动了人们选择研究那些已被充分研究的蛋白质。关于蛋白质的文献数量也与其基本的生物学和生化特性有关,例如蛋白质大小、丰度、疏水性及其基因对突变的敏感性。事实上,迄今为止,在19,733个人类蛋白质编码基因中,有1,899个(9.6%)缺乏蛋白质组学技术的可靠支持,其中一些可能构成基因组注释错误。
科学家们对于不同蛋白质的关注天差地别,人类蛋白质组中最受欢迎的蛋白质是p53,平均而言,每天有两篇以p53为研究对象的文献发表。与此同时,数以千计其他人类蛋白质的生物学功能尚未得到研究。在人类蛋白质组功能表征研究中,95%的发表作品都在关注5000种已得到充分研究的人类蛋白质。
人类基因组的测序被视作是减少这种偏见的关键,但即使在基因组序列公开十年后,75%的发表作品仍然只关注基因组绘制之前已被研究的基因。
为了系统地减少全基因组注释的偏差,可能需要单独优化多个功能蛋白质组学方法,并将其结果整合到一起。我们还可以将蛋白质组学数据与其他组学数据进行整合。例如,代谢组学可以捕捉到一个互补的功能谱。请注意,将蛋白质组学与遗传学、功能遗传学或代谢组学结合起来,可以大大提升表型预测效率。
现在正是减少人类基因组和蛋白质组的注释非均一性的时候。“未充分研究的蛋白质计划”将包括各种不同的数据生成方法,开发整合框架,并通过适当的平台向研究人员提供注释。该计划不仅要解决技术问题,还要找到基因功能缺失的生物医学原因,如生长条件定义不准确、单一时间点研究,以及对于极少数遗传变异性低的实验室模型过度关注。