过去两周,生物学界因《自然》先后发表的两篇论文陷入“狂欢”。一篇是DeepMind公司公布了其开发的人工智能(AI)软件AlphaFold的源代码,另外一篇称AlphaFold实现了对人类蛋白质组的准确结构预测,其数据集涵盖了人类蛋白质组近60%氨基酸的结构位置预测,且预测结果具有可信度,并将通过欧洲生物信息研究所(EMBL-EBI)托管的公用数据库免费开放。
有评论认为这一技术带来的冲击是“革命性”的,是本世纪最重要的科学突破之一,将深刻地改变生命科学的进程和工作范式;也有科学家认为,AlphaFold在工程上确实做得令人印象深刻,但从基本概念和思想上来说,有一些创新,但不是很多,其影响究竟如何,等过几年评价会更客观。
2017年,谷歌旗下DeepMind公司开发的AlphaGo机器人战胜了世界围棋冠军柯洁。在一年之后的演讲中,柯洁回忆当时的场景说,在第三局AlphaGo下出令他绝望的一步棋,内心知道获胜无望后,他感到浑身寒冷的颤抖。不过,柯洁最终释然,这是人类新智慧战胜了古老智慧的标志,他希望人类实现更多这样的自我超越。
在过去的几年里,各个行业都在拓展人工智能(AI)的能力边界,图片视频的搜索、语音识别、人脸识别、自动驾驶、医疗影像,其中也包括了科研领域——天文学家已经用深度学习(Deep Learning)对海量的天体自动分类、发现稀有的天体、探测引力波、发现系外行星。如今,传统上被认为是实验科学的生物学也因人工智能迎来了巨变。
这一次,源头正是DeepMind团队的人工智能软件系统AlphaFold。
7月23日,DeepMind团队和欧洲生物信息研究所(EMBL-EBI)合作,发布由人工智能系统AlphaFold预测的蛋白结构数据库(AlphaFold Protein Structure Database),供科学家免费使用。如同人类基因组图谱的公布代表着基因组学革命的起点,这一数据库的发布很快被认为有望为生命科学带来革命性的变化。
不过,发布后初步试用过这一系统的科学家,在接受《知识分子》采访时对其评价不一。有科学家认为在其解析蛋白结构预测上给了自己更多的灵感,但也有科学家在对比AlphaFold预测的结果和自己已经解析出结构但未发表文章的数据之后,发现AlphaFold预测的大部分结果不对,因此认为AlphaFold对自己的工作(帮助)作用不大。
此次公布的AlphaFold蛋白结构数据库,覆盖了人类以及20种生物学研究中常用模式生物(大肠杆菌、果蝇、斑马鱼、小鼠等)约35万个蛋白结构,其中包括98.5%的人类蛋白结构预测结果。此前,科学家们在数十年的努力之后,解析的蛋白结构只覆盖了人类蛋白序列中17%的氨基酸。
在《自然》杂志发表的论文中,研究人员指出,AlphaFold能够对人类蛋白质组中58%的氨基酸的结构位置做出可信预测(confident prediction),对35.7%的氨基酸的结构预测达到很高的置信度(very high confidence)。
DeepMind和欧洲生物信息研究所还表示,双方将不断为这一数据库添加新的蛋白三维预测结构。到今年年底,数据库可能包含1.3亿个蛋白结构。DeepMind团队的目标是为所有具有已知序列的蛋白提供预测结构。
生物学一直以来是以实验为基础的学科,实验手段测定的数据因此成为认知的金标准(gold standard)。周强认为,如果预测的结果屡次被实验证实的话,那么预测所用的工具或者规律将上升到定律的高度,从而改变研究者的认知和研究的范式。
历史上,伴随着解析蛋白结构的工具的日益强大,结构生物学也获得了重大发展。最早是X射线晶体衍射,之后是冷冻电镜。第三次是结合了强大计算力和算法的新一代人工智能技术,而这一切来的如此之快。
2020年11月30日,AlphaFold在第14届国际蛋白质结构预测竞赛(CASP)中摘得桂冠,在接受检验的近100个蛋白靶点中,AI系统对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几。
当时,DeepMind在官网发布新闻稿,称对于困扰生物学界50年的“蛋白质折叠”难题,AlphaFold系统已成为业内专家认可的解决方案;Nature新闻更是以“it will change everything”(将改变一切)作为标题,指出DeepMind在解决蛋白结构问题上“迈出一大步”。
仅仅过了半年,2021年7月16日,DeepMind团队就在《自然》杂志上发表论文,公开了优化后的AlphaFold人工智能系统的源代码,并详细描述了其设计框架和训练方法。如今,一个包含了预测的约35万个蛋白结构预测信息的数据库问世。
专注于使用深度学习预测蛋白质结构的芝加哥大学丰田计算技术研究所终身教授许锦波认为,做分子生物学的很多人一直都在用人工智能手段预测蛋白结构,“现在(AlphaFold)有更准确的预测,对他们的帮助应当会更大”。许锦波解释,AlphaFold在预测一个目标蛋白质的结构的时候,会先在已有的蛋白质序列和结构数据库里面寻找这个目标蛋白质的同源蛋白。
这些同源蛋白跟目标蛋白在序列上可能不太一样,但是结构是相似的。这些同源蛋白构成了AlphaFold神经网络的输入。通过使用基于注意力机制的神经网络以及现有实验结构的训练,AlphaFold可以从同源蛋白中预测出目标蛋白氨基酸之间的相互作用强度图。然后AlphaFold利用另外的神经网络以及蛋白质结构固有的物理约束从氨基酸之间的相互作用强度生成目标蛋白质原子的三维坐标。
对于AlphaFold的预测精度,许锦波称,这依赖于同源蛋白的数量和相似性,以及同源蛋白是否已经有实验结构。如果同源蛋白数量很少又没有实验结构,那么AlphaFold一般就很难做出准确的预测(当然也有例外)。“至于是不是本世纪最重要的科学突破之一,每个人的看法不一样,再过几年评价会更客观一些。”许锦波说。
他指出,人类蛋白质结构对很多问题很重要,但并不是说有了结构其他问题就能很容易解决,比如说药物发现和设计,蛋白相互作用等等,这些问题依然存在。
他评价,从基本概念和思想上来说,Alphafold有一些创新,但不是很多,在工程上确实做得非常“impressive”(令人印象深刻)。“这场蛋白结构预测的革命其实是从我2017年1月份发表的一篇论文开始的。
DeepMind把这个过程加速了,没有他们(DeepMind团队),学术界可能还需要5,6年或更长时间。”许锦波说。2017年1月,许锦波首次提出使用全局性的深度卷积残差神经网络(Deep Convolutional Residual Neural Network)的方法去预测接触图或者距离图,以预测蛋白的三维结构,而这是AlphaFold系统运行的重要基础。
不同的是,AlphaFold把卷积换成注意力机制,也把氨基酸之间的距离图换成相互作用图。
“使用基于神经网络的深度学习预测蛋白结构,之前已经有很多人在做,但是DeepMind把它做到了极致,证明人工智能预测蛋白结构可行。”清华大学生命科学学院教授王宏伟也评价称,“(AlphaFold)更多的是一种工程层面的组织”。王宏伟指出,这种新型的科研范式,与大学实验室一两个人或者几个人去做研究非常不同。
“它其实是通过一种公司的组织方式,把相关的不同多个领域的专家,包括结构生物学专家、生物信息学的专家,结构预测的专家,计算机的专家,人工智能的专家,把他们组合到一块,一起通过这种新的组织方式去做这样的事情,然后利用公司的非常强大的资源作为支撑去做”。
值得注意的是,DeepMind公布Alpahfold源代码这天(7月16日),华盛顿大学David Baker团队也公布了自己的人工智能预测蛋白结构的系统RoseTTAFold源代码。不管是否因学术界的压力公布源代码,王宏伟说,DeepMind最终没有把Alpahfold作为公司自己的独有的技术封存起来,这次完全公开,“我觉得对于整个人类来讲是一个很重要的贡献”。
伴随着AlphaFold强大的预测能力,也许,今后解析一个蛋白结构不再那么难。“计算验证生物学时代羞羞答答地正式开启。”清华大学生命科学学院教授杨茂君评论说。他所说的计算验证生物学,可以理解为在人工智能完成蛋白结构的预测后,科学家再用实验的方法进行验证。
“以前要想看到结构,再去阐述的话很困难,因为获取结构的过程比较困难,但如果有这个软件,两三分钟就可以给出一个大致的模型,就可以很容易进行阐述,然后做几个蛋白突变,就可以验证你的想法,所以说叫做结构验证学。”杨茂君说。而仅仅验证的话,工作量就要低很多。可以预见的是,结构生物学会越来越简单了。
“上手做结构的人会越来越多,对其他的学科的研究肯定会有很强的促进作用,也会越来越重视结构生物学,以前解结构实在太困难了。”杨茂君说。
AlphaFold开源后,清华大学医学院教授李海涛很快就尝试测试了这一系统。他的判断是,AlphaFold作为一种蛋白结构预测工具,可以更早地启迪新发现。
李海涛向《知识分子》展示了AlphaFold预测的一种表观调控蛋白的三维结构,这个蛋白有两个间隔甚远的结构域,它们各自的结构先前己分别得到解析,但没有数据表明二者有直接关联,而AlphaFold的预测启示这两个结构域可以相互倚靠,形成更高级的结构,极可能对应着全新的调控功能。李海涛说,尽管这一点仍待实验验证,但这已经带给他莫大的惊喜。
“原本这要历经数年探索加上机遇才能够意识到的发现,现在有了人工智能结构预测,让我超前意识到了。”接下来,李海涛团队要做的,就是对这一启示进行生化与结构验证,然后设计下一步的功能实验,探究这一发现的生理和病理意义。
在李海涛看来,高质量的AI预测结构,将充分释放结构生物学的学科能量,使其能更高效地服务于阐明结构如何决定功能这一根本宗旨。
与此同时,这对单纯靠蛋白结构解析发高影响力论文的研究模式造成了冲击一一AI预测所带来的研究范式转变开启了一个发现与功能导向的结构生物学新时代。清华大学生命科学学院教授王宏伟也认为,人工智能极大地释放了劳动力,使得结构生物学家未来可以把更多的精力放在理解更加复杂的复合体的结构,分析生物大分子结构的动态,以及分子机制的研究上,而不是花费大量精力和时间在解结构的过程中。
李海涛和王宏伟还不约而同地表示,冷冻电镜将在验证人工智能预测发挥更大的作用,正是因为预测蛋白结构的准确率和速度越来越快,会有更多的验证工作要去做。另外,冷冻电镜最重要的优势就是在解析复合体的结构和解决溶液与原位状态不同构象的分子机器的结构,而这是人工智能目前无法做到的。
“毋庸置疑的是,近年来随着AI和算力的快速发展,生命科学的各个领域将面临逐步智能化的升级。从AI的角度,蛋白质结构预测在一定程度上是生命活动中相对比较容易建模的过程,较少依赖大数据。随着AI进入生命科学的深水区,我预计各种生理病理状态下的蛋白质组大数据水平的累积将对AI广泛用于生命健康有至关重要的作用。”西湖大学特聘研究员郭天南告诉《知识分子》。
不过,AlphaFold预测的结构仍然有很多局限。
论文作者指出,很多蛋白通过与其它蛋白、核苷酸或配体结合来行使功能,AlphaFold尚且不能预测复杂复合体的三维结构。此外,蛋白构象很多情况下是动态过程,同一个蛋白可能根据环境和其它因素,变换成不同的构像并且具有不同的功能,而AlphaFold通常只能预测出一个最优构象,也不能预测蛋白的动态过程。
“AlphaFold的确是非常强大,可以把几分钟就把一个结构给预测出来,但是蛋白分子的构象在体内,其实它是在不停的变化的,是一个动态过程。变化才是主题,再强的算法也很难达到精准预测。”杨茂君说。
对于AlphaFold,在经历了短暂的兴奋之后,杨茂君发现,AlphaFold带给结构生物学家的冲击,可能没有想象中那么大。
他告诉《知识分子》,他的实验室有十多个已经解出来但未发表文章的蛋白结构,但与AlphaFold的预测对比之后,“差别太大了,预测的结果没什么用。”杨茂君说,AlphaFold对已经有结构的同源蛋白质的预测相对来说准确度会高一些,但因为他们实验室做的蛋白结构,很多都是别人以前没解析过的,“所以说它(DeepMind团队)才预测出来就不准嘛,这个也是它的局限性所在。”
“人工智能只能预测有结构的序列的结构,而对于没结构的氨基酸序列,AlphaFold也无从做出结构预测。”清华大学医学院教授李海涛表示,蛋白质特定结构的形成有着严谨的生化原则约束,这就像特定语法约束着语言形成一样,并不是任何文字组合都有语义。而AlphaFold做的,就是把自然界中经亿万年进化而选择下来的拥有特定结构的氨基酸序列的结构预测出来。
这显然受惠于测序大数据的建立,它使得我们知道哪些氨基酸的排列组合是自然选择下来能形成特定结构、行使特定功能的序列精华。对于随机序列而言,绝大部分情况下,一级序列并不能决定三维结构,AlphaFold当然也就“无能为力”去预测结构了。“从某种意义上讲,AI结构预测突破带来的一个全新挑战其实是一一哪段序列有结构?在AI的辅助下,人类认知有望全面实现从大自然的序列启示到人工结构设计的升华。”李海涛说。
“这一里程碑式的进展,距离人类完全解析生命活动的奥秘仍有较大的距离。首先,蛋白质组具有高度复杂的结构和动态,复杂蛋白质复合体的结构解析仍是一个挑战;其次,蛋白质结构在不同生理病理状态下的动态也是尚未解决的难题。”西湖大学特聘研究员郭天南说,“除了结构解析,蛋白质组在不同组织细胞和生理病理状态下的表达和功能活性,则需要更多的技术手段进行研究,比如质谱技术。”