如今,人工智能已经渗透到人们生活的方方面面,各种深度学习算法也越来越多地应用于各个领域。尤其在生物和医学领域,人工智能技术可以说大放异彩,极大加速了有关生物、病理等科学的发展,而其中一项重要的应用,就是预测蛋白质结构。蛋白质作为构成人体组织器官的支架和主要物质,在人体生命活动中起着重要作用。
2020年,DeepMind在第14届“蛋白质结构预测关键评估”(CASP14)大赛中展示了轰动一时的相关成果——AlphaFold2,当时,该技术预测蛋白质结构的准确度排名第一。
现在,西雅图华盛顿大学医学院蛋白质设计研究所的研究人员,研发出一款新的深度学习工具RoseTTAFold,不仅拥有媲美AlphaFold2的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低,更重要的是,RoseTTAFold完全免费!相关论文发表在最新一期的Science杂志上。
蛋白质是一切生命的物质基础,由无数氨基酸链组成,它们按照特定方式折叠结合成复杂的微观形状,这些独特的结构反过来又引发了生物体内几乎所有的化学过程。因此,通过更好地了解蛋白质内部结构,科学家们可以加快开发针对癌症、COVID-19和数千种其它健康疾病的新疗法。Science杂志曾指出,蛋白质折叠问题是人类在21世纪需要解决的125个科学前沿问题之一。
通过蛋白质结构预测破译“第二遗传密码”,是生物学中心法则尚未揭示的奥妙之一,也是目前结构生物学面临的一项具有挑战性的重大基础性研究课题。然而,确定蛋白质的3D结构一直是一个难题。在过去的几十年中,人类已经能够利用冷冻电子显微镜、核磁共振或X射线晶体学等实验技术确定蛋白质的基本结构,但这些技术基于大量试错,往往需要花费数年时间,成本也非常高。
近年来,随着人工智能技术的不断发展,有关预测蛋白质结构的AI工具也越来越成熟。其中,性能最强、准确度最高的就是去年DeepMind在CASP14蛋白质结构预测评估会议上展示的AlphaFold2。在去年的比赛中,AlphaFold2预测的大部分结构达到了空前的准确度,不仅与实验方法得出的结果不相上下,还远超解析新蛋白质结构的其他方法。现在,肯定的答案浮出水面。
在此次的新研究中,华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长David Baker领导一支计算生物学家团队,成功开发一款名为RoseTTAFold的工具,基于深度学习,能够根据有限的信息快速准确地预测出目标蛋白质的结构,达到与AlphaFold2不相上下的准确度。
不仅如此,RoseTTAFold所需的计算耗能与计算时间均比AlphaFold2还要低:仅用一台游戏计算机,在短短十分钟内就可以可靠地计算出蛋白质结构。更值得注意的是,RoseTTAFold的代码和服务器完全免费提供给科学界!自7月以来,相关程序已被140多个独立科研团队从GitHub免费下载,来自世界各地的科学家现在正在使用RoseTTAFold来构建蛋白质模型,以加速相关领域的研究。
因此可以说,RoseTTAFold不仅仅是“免费版”的AlphaFold2,更是该技术领域推翻“前浪”的那一股“后浪”。整个研究学界都将受益。实际上,RoseTTAFold是一个“三轨”神经网络("three-track" neural network),这意味着它同时考虑一维蛋白质中的氨基酸序列、二维蛋白质的氨基酸如何相互作用以及蛋白质可能的三维结构。
在这种架构中,一维、二维和三维信息来回流动,从而使神经网络能够共同推理出蛋白质的化学部分与其折叠结构之间的关系。目前,该团队已经使用RoseTTAFold计算了数百种新的蛋白质结构,其中包括许多来自人类基因组的知之甚少的蛋白质。研究人员还生成了与人类健康直接相关的蛋白质结构,包括与非正常脂质代谢、炎症障碍和癌细胞生长相关的蛋白质结构。
这些成果都表明,RoseTTAFold可以仅用从前所需时间的很小一部分,构建出复杂生物组件的模型。当然,看似“小小”的一步,背后支撑的是整个研究团队的努力。作为团队主要负责人,Baker说:“在蛋白质设计研究所这忙碌的一年中,我们设计COVID-19疗法和疫苗并将其投入临床试验,同时开发出用于高精度蛋白质结构预测的RoseTTAFold工具。
我很高兴科学界已经在使用RoseTTAFold服务器来解决突出的生物学问题。”可以想见的是,如此一款便捷免费、高准确度、低成本的工具必然会受到世界各地的科研人员的欢迎。团队成员之一、博士后学者Minkyung Baek也表示:“我们希望RoseTTAFold新工具在今后,继续使整个研究学界受益。”