拉斯克奖为何给了人工智能预测蛋白质结构？

北京时间2023年9月21日上午，拉斯克基础医学奖2023年度奖项揭晓。这项被誉为诺奖风向标的大奖今年授予DeepMind首席执行官Demis Hassabis以及该公司科研人员John Jumper，他们开发的AlphaFold人工智能算法可根据氨基酸一级序列准确预测蛋白质三维结构，解决了长期困扰生物医学研究领域的难题，为加速生物医学研究打开了大门。

蛋白质在疾病发生中起着举足轻重的作用：在阿尔茨海默病中，它们会折叠和聚集；在癌症中，它们的调节功能丧失；在先天性代谢障碍疾病中，它们会功能失调；在囊性纤维化中，它们会进入细胞中错误的空间。这仅是众多致病机制中的一小部分。详细的蛋白质结构模型可提供原子构型，推动高亲和力分子的设计或选择，加速药物研发。

蛋白质结构一般由X射线晶体学、核磁共振和冷冻电镜确定。这些方法既昂贵又耗时。

这导致现有的3D蛋白质结构数据库只有约20万个结构数据，而DNA测序技术已经产生了800多万条蛋白质序列。20世纪60年代，Anfinsen等人发现氨基酸的1D序列可以自发、可重复地折叠成功能性三维构象，分子“伴侣”可以加速和促进这一过程。这些观察结果为分子生物学带来了一项长达60年的挑战：根据氨基酸的1D序列预测蛋白质的3D结构。

随着人类基因组计划的成功，我们获得1D氨基酸序列的能力大幅提高，这一挑战变得更加紧迫。

AlphaFold输入未知结构蛋白质的1D序列和在不同物种和组织中发现的许多类似蛋白质的多序列比对。它创建了一个深度神经网络，以表示蛋白质中氨基酸之间的关系，以及这两个位置在MSA所代表的进化空间中的关系。

这些表征彼此相连，并在Evoformer中“交流”，Evoformer利用已知的1D序列和3D结构来推断哪些氨基酸是彼此靠近的。Evoformer将相关信息传递给结构模块，该模块接着将氨基酸中的原子位置转化为三维结构，并在考虑原子键、角度和扭转角有效值等物理和化学限制的基础上，寻找与Evoformer提供信息相匹配的原子构型。

每个建模结构都有许多潜在的应用领域，包括设计能与蛋白质口袋紧密结合的药物、估计基因突变对蛋白质结构和功能的影响，为蛋白质界面建模（并可能对其进行干扰）从而产生（可能不需要的）蛋白质-蛋白质相互作用，以及为工程目的设计新的蛋白质结构。

预测蛋白质结构之所以困难，有几个原因。首先，每个氨基酸中每个原子的所有可能三维位置均需海量探索。

其次，蛋白质在化学结构上最大限度地利用互补作用以有效配置原子；由于蛋白质通常有数百个氢键“供体”（通常是氧），它们应该靠近氢键“受体”（通常是与氢结合的氮），因此要找到几乎每个供体都靠近受体的构象可能非常困难。第三，用于实验方法训练的实例有限，因此必须利用相关蛋白质的进化信息，在1D序列基础上了解氨基酸之间潜在的三维相互作用。

人们最初使用物理学模拟原子在寻求最佳构象时的相互作用，并据此开发出一种预测蛋白质结构的方法。Karplus、Levitt和Warshel因其在蛋白质计算模拟方面的贡献而荣获2013年诺贝尔化学奖。然而，基于物理学的方法计算成本高昂，而且需要近似处理，因此无法预测精确的三维结构。另一种“基于知识”的方法是利用已知结构和序列数据库，通过人工智能和机器学习训练模型。

Hassabis和Jumper同时应用了物理学和AI–ML的元素，但该方法的创新性和性能上的飞跃主要源于AI–ML；这两位研究者创造性地将大型公共数据库与工业级计算资源结合起来，创建了AlphaFold。

我们如何才能知道他们“解决”了结构预测难题？1994年，“结构预测的关键评估”大赛成立，每两年举行一次会议，以跟踪结构预测的进展。

研究人员会分享他们最新解析出结构、但尚未公布结果的蛋白质的1D序列。预测者使用该1D序列预测三维结构，评估者通过将预测结果与实验人员提供的三维结构进行比较，独立判断预测结果的质量。CASP进行真正的盲评，并记录了与方法创新相关的周期性的性能跃升。

在2020年第14届CASP会议上，AlphaFold的预测结果表明性能飞跃如此之大，以至于组织者宣布三维结构预测问题已经解决：大多数预测结果的准确性与实验测定结果相近。

Hassabis和Jumper在技术上进行了一系列创新，包括可微分的端到端预测管线，这样就可以同时优化模型中的所有参数；输入的1D序列和其进化邻域的序列比对的编码，可以协同预测氨基酸的相对邻近度；AI-ML的计算“关注”机制，通过检测哪些相互作用对预测三维邻近性最重要，从而简化搜索空间；并将邻近性预测细化为详细的3D原子构型。不出所料，他们提出的观点引发了大量借鉴和扩展其观点的创新。

AlphaFold已用于推动新药开发。它有助于照亮蛋白质组学中的“暗物质”；现在可以对以前未曾见过的结构进行建模，以探索其功能。蛋白质设计人员正在利用AlphaFold完善蛋白质设计。AlphaFold还可利用实验数据完善初始结构，建立大型细胞“机器”，从而实现转录、翻译、复制、降解、循环、生物力的产生和其他过程。

AlphaFold确实还没有解决三维结构中的部分重要问题，包括变异蛋白质的建模、从1D到3D的折叠路径、蛋白质的时间动态以及结构与实验测量功能之间的联系。不过，它为上述各方面的进展提供了一个起点。

更广泛的意义在于，Hassabis和Jumper的工作令人信服地展示了AI-ML如何改变科学。其研究表明，AI-ML可以从多个数据源建立复杂的科学假设，注意力机制可以发现数据源中的关键依赖关系和相关性，而且AI-ML可以自我判断其输出结果的质量。AI-ML本质上是在做科学研究。