长期以来,如何快速、准确地确定蛋白质的三维空间结构,在生命科学领域一直是一个难题。而人工智能技术的快速发展,让生命科学研究者看到了希望。2020年11月30日,由DeepMind公司开发的人工智能程序AlphaFold 2,在蛋白质结构预测大赛CASP14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。
随后,来自华盛顿大学蛋白设计研究所以及霍华德休斯医学研究所的David Baker教授带领的研究人员,研发出了一款完全免费的、新的深度学习工具RoseTTAFold,不仅拥有媲美AlphaFold2的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低。
现在,David Baker教授带领的研究团队,进一步将AlphaFold 2与RoseTTAFold相结合,成功用于蛋白质-蛋白质复合物结构的预测。在对830万对酵母蛋白质进行了筛选后,他们识别出了1505种可能的蛋白质相互作用,发现了106个全新蛋白质复合物以及806个全新的蛋白质复合结构。
这些新的复合物拥有多达5个结构亚型,在真核生物细胞的几乎所有重要生命活动中发挥着重要作用,为全面了解蛋白质的生物学功能打下了坚实的基础。相关研究以“Computed structures of core eukaryotic protein complexes”为题,发表在最新一期的Science杂志上。蛋白质相互作用的意义蛋白质作为构成人体组织器官的支架和主要物质,在人体生命活动中起着重要作用。
许多生命活动是以蛋白质分子的结合和解离来实现的,细胞的各种重要生理活动,细胞对外界环境及内环境作用的反应等,均是以蛋白质间相互作用为纽带,形成信号转导网络系统。所谓蛋白质相互作用,是指两种或以上的蛋白质结合的过程,通常旨在执行其生化功能。在细胞中,大量蛋白质元件组成分子机器,透过蛋白质相互作用执行细胞内重要的分子过程。
可见,细胞的代谢、信号传导以及基因表达调控都与蛋白质的功能密切相关,蛋白质与其他生物大分子一样,必须参与到错综复杂的相互作用网络中行使其功能,这也是目前所有生物学研究的基础。蛋白质的相互作用能产生许多效应,如改变蛋白质的动力学,形成特异底物作用通道,生成新的结合位点,使蛋白质失活,改变蛋白质对其作用底物的专一性等。
了解蛋白质相互作用的方式、作用程度、作用结果,将有助于解决蛋白质功能的分析、生命发育的探索、疑难病理的研究、有效药物的开发等众多问题。因此,对蛋白质相互作用的深入研究,是认识和理解各种生命现象的必要前提。其中,解析蛋白质相互作用的结构,对于了解蛋白质相互作用的功能至关重要。
AI助力解决蛋白质复合物三维结构难题蛋白质相互作用的研究对于生物学发展至关重要,对基础科学和药物发现具有重大意义,但是预测多蛋白复合物的结构是生物化学中的一项巨大挑战。即使经过的大量的努力,长期以来众多真核生物蛋白质复合物的结构依旧未知,许多蛋白质相互作用的机制尚未确定。
为此,David Baker教授带领的研究团队利用全蛋白质组氨基酸协同进化分析和基于深度学习的结构建模,试图系统地识别和构建酵母蛋白质复合物的准确结构。在本研究中,David Baker教授选择使用RoseTTAFold和AlphaFold的组合对830万对酵母蛋白的配对进行多序列比对,最终识别出了1505种可能的蛋白相互作用,并确定了106个全新的蛋白复合物以及806个全新蛋白质复合物结构。
这些新发现的蛋白复合物拥有多大5个结构亚型,在几乎所有的真核细胞关键生命活动中发挥了重要作用。这一研究结果表明,将大规模深度学习技术从单个蛋白质结构预测扩展到蛋白质复合物结构预测是可行的。研究中发现的众多全新蛋白复合物以及相应结构对于后续人们理解真核细胞的生命过程具有重要意义,且为药物研发奠定了基础。
研究人员表示,“上述方案可以直接扩展到人类蛋白质相互作用的大规模研究,但是由于人类蛋白质种类数量比酵母大得多,因此需要更多的计算时间。不过,由于共同进化的相关性较弱,以及基因复制产生的许多旁系同源物,这一模型可能并不一定能准确预测高等真核生物,例如人类蛋白质复合物结构。但是,如果有足够的同源物序列,此方案可以快速预测单个蛋白或蛋白质复合物的相互作用以及结构。
”“在蛋白质复合物结构预测上,AlphaFold 2与RoseTTAFold应进一步提升性能,尤其是针对具有较少同源物或较弱相互作用的蛋白质复合物。总的来说,本研究结果预示着结构生物学的新时代,在这个时代,计算机在蛋白质相互作用的发现和结构确定中均发挥着重要作用。”被认为“必拿诺奖”的David Baker是华盛顿大学生物化学教授和霍华德休斯医学研究所的研究员,IPD所长和首席研究员。
作为大名鼎鼎的蛋白质设计大师,David Baker近几年一直被认为是诺奖热门人选。1998年,David Baker团队开发了一种用于蛋白质结构预测的Rosetta算法平台,利用这个平台构建虚拟的氨基酸链,然后计算出它们最容易折叠的形式。
为了获得更加强大的计算能力,2005年他们创建了一个名为Rosetta@home的众包性外延项目,该项目可以让人们将闲置的计算机用于需要进行的计算,从而研究所有潜在的蛋白折叠。在超过100多万名众包用户的帮助下,David Baker团队已经找到了如何选择创建一种能够呈现他们想要形状的蛋白质所需的构建模块。
不久前,David Baker团队研发出一款新的深度学习工具RoseTTAFold,不仅拥有媲美AlphaFold2的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低,更重要的是,RoseTTAFold完全免费!相关研究结果同样发表在Science杂志上。
作为团队主要负责人,Baker说:“在蛋白质设计研究所这忙碌的一年中,我们设计COVID-19疗法和疫苗并将其投入临床试验,同时开发出用于高精度蛋白质结构预测的RoseTTAFold工具。我很高兴科学界已经在使用RoseTTAFold服务器来解决突出的生物学问题。”