DeepMind的一款预测蛋白质3D结构的软件彻底改变了生物学。十多年来,分子生物学家Martin Beck和同事一直在尝试完成世界上最难的拼图之一:一个描绘人体细胞最大分子机器的高分辨率模型。这个庞然大物名为核孔复合体(nuclear pore complex),它控制着分子从基因组所在细胞核的进进出出。
每个细胞内都有数百个这种复合体,每个复合体由1000多个蛋白组成,这些蛋白在一个核膜孔的周围形成环状。
2016年,德国马克斯·普朗克生物物理研究所(MPIBP)的Beck领导团队报道了一个模型,这个模型名为Nup蛋白,覆盖了约30%的核孔复合体,占到了这30多个基本单元的约一半。
去年7月,谷歌母公司Alphabet位于伦敦的子公司DeepMind公开了名为AlphaFold的AI工具,该软件能根据蛋白质的基因序列预测其3D结构,且大部分情况下准确度极高。这完全颠覆了Beck的工作,也彻底改变了成千上万生物学家的研究。
Beck说:“AlphaFold改变了整个游戏。”希伯来大学计算结构生物学家Ora Schueler-Furman说:“就像发生了一次地震。现在处处都能看到AlphaFold的身影。”Schueler-Furman使用AlphaFold模拟蛋白的相互作用。“世界分成了7月前的世界和7月后的世界。”
Beck和MPIBP的同事——分子生物学家Agnieszka Obarska-Kosinska和生物物理学家Gerhard Hummer领导的团队,以及欧洲分子学生物实验室(EMBL)的结构建模师Jan Kosinski带领的团队利用AlphaFold更准确地预测了人体Nup蛋白的结构。
通过一个能让AlphaFold模拟蛋白相互作用的微小调整,他们在去年10月发表了一个能覆盖60%的核孔复合体的模型。这个模型揭示了该复合体如何稳定细胞核的孔,同时提示了这些复合体以何种方式控制进进出出的分子。
过去半年里,生命科学领域掀起了一股AlphaFold狂热。伦敦大学学院的计算生物学家Christine Orengo说:“我参与的每个会议上,人们都在问‘干嘛不用AlphaFold?’”。有时候,这个AI能节省科学家的大量时间;有时候,它能让之前无法想象或不切实际的研究成为可能。但它也存在局限性,有些科学家在自己的工作中发现它的预测不太可靠。但无论如何,这场实验正以疯狂的速度进行着。
即使是该软件的开发者,也在努力跟上它在从药物发现到蛋白设计再到复杂生命起源的各种应用。“我早上起来在Twitter里输入AlphaFold,”DeepMind的AlphaFold团队负责人John Jumper说,“看到屏幕上的一切,这种体验非常特别。”
AlphaFold在2020年12月曾引起轰动。当时,它在名为蛋白质结构预测关键评估(CASP)的大赛上一举夺魁。
该比赛每两年举办一次,呈现了生物学界在一项艰巨挑战上的最新进展,这项挑战是如何仅凭蛋白质的氨基酸序列确定其3D结构。计算机软件给出的结构会拿来与经过X射线晶体学或冷冻电镜(cryo-EM)这类实验方法确认的结果进行对比。2020版的AlphaFold是该软件的第二个版本。
AlphaFold之前还摘得了2018年CASP大赛的冠军,但它的更早版本并不够好,不能取代使用实验方法解析的结构,Jumper说。不过,AlphaFold2的预测结果平均而言已与实验结果相差无几。
AlphaFold使用了深度学习神经网络:受到大脑神经网络启发的计算机架构,能识别数据中的模式。该网络使用了上万的经过实验测定的蛋白质结构以及PDB等数据库中的序列进行训练。
如果给它一个新序列,它会先在数据库中寻找类似序列,发现容易发生共同演化的氨基酸,提示它们的3D结构也很相似。已有的相关蛋白质结构为估算新序列中氨基酸对的距离提供了另一种方式。在尝试模拟氨基酸的3D构象时,AlphaFold会反复迭代这些并行跟踪的线索,并持续更新它的最新预测。
根据DeepMind的统计,目前已有超40万人使用过EMBL-EBI的AlphaFold数据库。
此外还有一些AlphaFold的“超级用户”:这些研究人员在自己服务器上安装了AlphaFold,或是打造了AlphaFold的云版本,用来预测不在EMBL-EBI数据库中的结构,或是探索AlphaFold的新用途。解析结构生物学家对AlphaFold的结构解析能力叹为观止。“基于我目前看到的结果,我很信任AlphaFold。”丹麦奥尔胡斯大学的结构生物学家Thomas Boesen说道。
这个软件成功预测了Boesen所在机构已经测定但尚未发表的蛋白质结构。
AlphaFold的局限性也被科学家们提及。虽然AlphaFold的出现推动了巨大进展,但科学家认为有必要说明它的局限性——尤其是因为非蛋白质预测专业的研究人员也会用到它。AlphaFold无法用来预测突变对蛋白质结构的影响——比如那些会致病的突变。它也无法通过训练来确定蛋白质在遇到其他相互作用蛋白或药物等分子时会如何变化。
研究人员认为,他们还要过一段时间才能弄明白AlphaFold这类AI工具的最佳用法。AlphaFold掀起的革命会走向何方无法预见。