今日,谷歌旗下DeepMind团队和欧洲生物信息研究所(EMBL-EBI)合作,发布了由人工智能系统AlphaFold预测的蛋白结构数据库(AlphaFold Protein Structure Database)。这一数据库将免费提供给全球的科研人员开放使用。新闻稿指出,如同人类基因组图谱的公布代表着基因组学革命的起点,这一数据库的发布也有望为生命科学带来革命性的变化。
欧洲生物信息研究所主任Ewan Birney博士将它称之为人类基因组图谱发布以来最重要的数据库之一。
一周前,DeepMind团队刚刚在《自然》杂志上发表论文,公开了优化的AlphaFold人工智能系统的源代码并且详细描述了它的设计框架和训练方法。这一系统在2020年的国际蛋白质结构预测竞赛(CASP)上表现惊艳,在接受检验的近100个蛋白靶点中,AI系统对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几。
今日公布的蛋白3D结构数据库包含了AlphaFold人工智能系统预测的约35万个蛋白结构,覆盖包括人类以及20种生物学研究中常用模式生物(大肠杆菌、果蝇、斑马鱼、小鼠……)。在人类蛋白质组方面,AI对98.5%的人类蛋白的结构做出了预测。此前,科学家们在数十年的努力之后,解析的蛋白结构只覆盖了人类蛋白序列中17%的氨基酸。
今日在《自然》发表的论文中,研究人员指出,AlphaFold能够对人类蛋白质组中58%的氨基酸的结构位置做出可信预测(confident prediction),对36%的氨基酸的结构预测达到很高的置信度(very high confidence)。DeepMind和EMBL-EBI同时表示,双方将不断为这一数据库添加新的蛋白3D预测结构。到今年年底,数据库可能包含1.3亿个蛋白结构。
AlphaFold预测的结构仍然有很多局限性。研究人员指出,很多蛋白通过与其它蛋白、核苷酸或配体结合来行使功能,AlphaFold尚且不能预测复杂复合体的3D结构。而且,蛋白构象很多情况下是个动态过程,同一个蛋白可能根据环境和其它因素,变换成不同的构像并且具有不同的功能。而AlphaFold通常只能预测出一个构象。对于不产生特定结构的氨基酸序列,AlphaFold也无法做出可信的结构预测。
即便如此,大规模的准确结构预测将给科学家们提供一个重要工具。EMBL-EBI发表的评论文章指出,这一数据库将对分子结构生物学研究产生“立竿见影”的影响,启动此前认为不可能或不实际的研究项目,加快复杂蛋白复合体的模型建立。对于广泛的生命科学界来说,高质量的3D蛋白模型能够帮助研究人员解释观察到的实验现象,促进新药靶点和候选药物的开发。
作者表示,随着AlphaFold数据库的公布,“结构生物学,以及广泛的生物学,将永远和以前不再相同,我们迫不及待地想看到这些新发展的影响——这将是一次令人振奋的体验!”