2020年11月30日,谷歌旗下DeepMind公司研发的人工智能系统AlphaFold在第14届国际蛋白质结构预测竞赛(CASP)中摘得桂冠。
DeepMind在官网发布新闻稿,称对于困扰生物学界50年的“蛋白质折叠”难题,AlphaFold系统已成为业内专家认可的解决方案;Nature新闻更是以“it will change everything”(将改变一切)作为标题,指出DeepMind在解决蛋白结构问题上“迈出一大步”。这些激动人心的表述,让网友们惊呼:如果机器预测蛋白结构这么准,结构生物学家们的饭碗,要被机器抢走了吗?
了解一种新的蛋白结构有两条路,一是靠实验去“看”,二是根据氨基酸序列用计算机去“算”。可以说,AlphaFold是目前“算”这条路上的冠军。利用计算预测蛋白质结构的CASP竞赛创始于1994年,如今已成为评估预测技术的黄金标准,也是这一领域交流新技术的国际平台。
该竞赛以全局距离测试(Global Distance Test,GDT)计分,满分100分,分数越高,意味着每个氨基酸残基(蛋白链上的小球)离实验测得的正确位置越接近。用于竞赛的蛋白质均为新近实验破解的、且未公开发表的研究。
在今年CASP比赛中,组织方在5月到8月间放出氨基酸序列,上百个参赛团队可在5月至9月中旬间提交模型。最终,DeepMind旗下AlphaFold系统拿下中位数92.4GDT的高分,就是在难度较高的自由建模环节也达到了87分的中位数,比第二名高出了25分。马里兰大学教授、竞赛创始人之一的约翰·蒙特(John Moult)教授认为,90 GDT左右的分数可认为与实验方法获得的结果相竞争。
对于AlphaFold的成绩,清华大学生命科学学院研究员李赛不吝赞美。结构生物学家李赛的研究方向是用冷冻电镜解析生物样本,而清华大学拥有国际一流的冷冻电镜平台。AlphaFold预测的效果如此之好,与实验结果只有小幅差异,甚至让人怀疑差异是否源于实验结果不够精细。
蛋白质由长长的氨基酸链组成,而仅有正确的氨基酸是不够的,这些链条必须扭卷成特定的三维结构,蛋白质才有活性,这一物理过程被称为蛋白质折叠。氨基酸链未折叠或折叠错误的蛋白质,都不能正常发挥生理功能。因此,探究蛋白质的结构对于研究其功能十分重要。
1972年,美国生物化学家克里斯迪安·安芬森(Christian Boehmer Anfinsen)提出假设,氨基酸序列能完全决定蛋白质结构。但氨基酸序列折叠的可能性多到数以亿计,仅通过氨基酸序列,并不能得到完整的蛋白质结构,因此在过去几十年里,计算预测只是实验手段的辅助。解析蛋白质结构,现有的常用实验方法有三种:核磁共振、X射线晶体学和冷冻电镜。
如今,已有约17万蛋白质的结构经实验破解,并上传至蛋白质数据银行(Protein Data Bank,PDB)公开。随着海量的序列和结构数据积累,预测结构不再是根据氨基酸序列“空算”,而有了学习的依据。利用这17万公开的蛋白质序列和结构数据,以及已知序列而未知结构的蛋白质数据库,DeepMind对Alphafold进行训练。
2018年,DeepMind推出AlphaFold1参加第13届CASP竞赛,今年的系统则是新版本AlphaFold2,使用了大约128个TPUv3核(相当于100-200个gpu)进行数周运算,算力更强。相比于上一代AlphaFold,新版本在中位数准确性上更进一步。
李赛表示,新闻中的AlphaFold建模的对象都是一些分子量较小的或较基础的结构。从简单到复杂、分子量从低到多,蛋白质结构可分为四级。其中,一级结构指线性的氨基酸序列;二级是形成稳定结构的氨基酸链,比如线圈状的α螺旋、锯齿状的β折叠;三级是几个二级结构形成的三维结构;四级结构是蛋白质复合物。
目前DeepMind展示的建模模型处于二级结构到三级结构之间。展示的可能是(分子量)比较小的,可能是由几个α螺旋或者几个β折叠这样的二级结构,或者是一些结构域(超二级结构)、小蛋白质结构。李赛解释,蛋白越大、折叠的不确定性就越大。对于蛋白中稳定的结构域,通过氨基酸序列就可预测二级结构。但随着结构尺度“升级”,会出现一些折叠不确定的部分,“这些对于预测是蛮难的,即使是实验方法都不能保证测出来。
清华大学生命科学院院长王宏伟表示,AlphaFold目前还主要是预测单链蛋白或结构域,无法预测较大的蛋白质复合体,尤其是包含很多不同组分的生物大分子机器的结构。他解释说,这主要是因为蛋白和蛋白的相互作用非常复杂,存在极多的可能性,即使实验手段也只揭示出冰山一角。
对于复杂的蛋白质或蛋白复合物,科学家们现在主要通过冷冻电镜来解析。在核磁共振、X射线晶体学、冷冻电镜三种方法里,最初用于核物理的核磁共振要求生物样本分子量最小(15~25Kd),分辨率最高,达1埃以下;X射线衍射法对样本大小(不超过200Kd)的要求和分辨率都居中,但样本必须结晶;冷冻电镜的分辨率原不如前两者,适用于研究单个较大的生物分子,但2013年后技术革命,分辨率已达到原子级。
李赛告诉《知识分子》,结构生物学和冷冻电镜方法现在的研究重点依然是蛋白质三维结构,包括蛋白蛋白复合物、蛋白核酸复合物、糖蛋白等等。除了可能的蛋白大小和结构复杂度的区别,李赛认为人工智能预测蛋白结构更依赖于比较理想化的环境。而理想状态与蛋白质的自然状态是不同的。
从时间上看,实验方法破解一个蛋白质结构,根据研究的紧急程度、样本可获得性、蛋白复杂程度等等因素,用时短则几周几月,长达数年也不稀奇。相比而言,计算预测是要快一些,毕竟AlphaFold运算训练只花费了数周,而CASP竞赛全套建模项目也只有5个月。
除了省时,也可能更省钱。冷冻电镜、核磁共振、X射线衍射三种实验方法探测蛋白结构的原理不同,设备也全然不同。冷冻电镜是用电镜观察经特殊冷冻后的样本;核磁共振是通过分析原子对能量的吸收情况反推物质的构成;X射线衍射法是利用晶体的X射线衍射结果计算晶体中原子排布。
硬件成本上,一台冷冻电镜根据规格型号不同,设备价格约在2000万到6000万之间,这还不算运行和维护费用。而核磁共振和晶体学的设备价格也很高昂。特别是晶体学的同步辐射设备,占地可达数平方公里,建设费用数以亿计,李赛介绍说。
陈勇是清华大学生命科学学院博士后,博士期间在中科院生物物理所研究晶体学,他表示X射线晶体学的设施建设费用可达百亿,一般由政府主导,比如中国的上海同步辐射光源。这些平台除了服务生物学,还用于材料科学、物理学等。虽然造价上天,陈勇解释,同步辐射设备通常全球共享,并不是每个研究单位都要自己有。
而如果用计算机预测蛋白结构,硬件“主要是高性能GPU计算平台的投入”,李赛表示,一个满足学院规模计算需求的平台建设大概需要千万级别,每年维护费用相对实验设施投入较低,电费开支每年在百万。陈勇认为,计算机预测蛋白结构的成本理论上还是有优势——虽然预测需要高性能计算机,但冷冻电镜也需要高性能计算,而且还要加上前期设备费用。
即使计算的成本优于实验,但有了预测还做不做实验呢?“AlphaFold确实是有划时代意义的工作,因为过去几十年科学家们一直努力实现能不能通过计算预测。这个是计算模拟或者是预测,实验性科学永远是实验性科学,我不知道计算预测出来的结果还要实验科学去验证吗?”陈勇说,“这是个有意思的问题,我也不知这会不会出现重复性工作,你预测出来一个,我还要去验证一下?”
对于结构生物学研究,预测并不陌生,并一直作为实验科学的辅助存在。李赛告诉《知识分子》,在AlphaFold之前很多年就有了一些预测蛋白质结构的算法。“密歇根大学的张阳实验室在这个上面比较领先,我们有时候会用他们的服务器预测一些结构,用来和电镜结构做参照。”至于预测与实验的结果,有时候一样,很多时候是不一样。
不过,对于从零开始的研究,预测可以帮助实验科学找找思路。陈勇表示,有许多未知的蛋白结构,在前期没有任何东西参考的情况下,“可以通过序列计算出来一个模型,然后实验性科学正好又得到了一个蛋白结构的电子密度,这样在分辨率没那么高的情况下,可能有助于我们从头建模,去搭原子模型。”
对于AlphaFold这样高准确性的算法,“我觉得这是一个蛮好的事情,非常厉害,”陈勇说,预测能辅助搭模,帮助在做表达的时候做一些优化和改造,“这样可能会加速实验性科学的脚步。”实验受益于预测,而预测的算法是基于实验科学的结果。
或许蛋白质折叠存在某种可靠的规律,但这种规律需要参考的生理因素实在太多太多。实验科学尚在探索冰山一角,构筑在实验之上的算法能形成理论闭环吗?“完全基于物理学和化学第一性原理的结构预测还没有出现。实验科学永远是探索未知的必要手段。”王宏伟指出。
AlphaFold系统对蛋白结构精准预测的算法不是凭空成立的,而来自对17万实验确定的蛋白结构和序列的学习。所有实验解出蛋白结构会上传PDB数据库并拥有编号。“这周放出来的晶体结构的量是两百多个,电镜(实验获得的)大概是五十多个。”陈勇介绍说。另外,数据库里约10~15%的结果来自核磁共振。
创建于1971年的全球共享的蛋白结构档案库——PDB现孜孜不倦地每周二更新。截至2020年12月2日,共收录171916个蛋白结构。但更多的蛋白质结构仍然未知。“对这些蛋白进行结构预测具有极大的重要性,同时预测的结构也有助于实验解析未知蛋白结构。”李赛表示。
DeepMind表示,在未确定的蛋白质中,可能有一些具有令人兴奋的新功能,像AlphaFold这样的技术可能会帮助我们找到它们——就像望远镜帮助我们看到未知宇宙的更深处一样。探索更多的未知结构,这大概是AlphaFold(们)和结构生物学家的共识吧。