继2017年AlphaGo击败前世界第⼀围棋选⼿柯洁之后,2020年AlphaFold 2的横空出世,让⼈⼯智能(AI)再次成功出圈。2年之后,如今的AlphaFold⼜怎样了?今年7⽉,DeepMind与EMBL-EBI利⽤AlphaFold⼏乎预测出了地球上的所有已知蛋⽩质,超过100万个物种的2.14亿个蛋⽩质结构,堪称⽣物学领域的⼀项重⼤⻜跃,⼀度在国内外的社交媒体上引发热议。
但是,作为“圈内⼈”的⽣命科学领域科学家们,却对AlphaFold取得的成果褒贬不⼀。
上个⽉,美国药物发现化学家Derek Lowe就给AlphaFold泼了⼀盆冷⽔。
在⼀篇题为“Why AlphaFold won’t revolutionise drug discovery”的⽂章中,Lowe写道,AlphaFold的整个计算技术都建⽴在寻找已知结构的类⽐上,在没有可⽐较结构的情况下,AlphaFold就⽆计可施了。如今,来⾃麻省理⼯学院、哈佛⼤学和Broad研究所的研究团队,在⼀项新研究中再次揭示了AlphaFold的局限性。
研究团队希望能够利⽤AlphaFold(预测出的)结构找到与特定细菌蛋⽩结合的药物。但他们发现,AlphaFold在这⼀⽅⾯表现得并不好。“事实上,它们的预测⽐偶然性好不了多少。
”相关研究论⽂以“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”为题,已发表在科学期刊Molecular Systems Biology上。
麻省理⼯学院教授、论⽂通讯作者James Collins说: “诸如AlphaFold这样的突破正在扩⼤计算机药物发现⼯作的可能性,但是这些发展需要与作为药物发现⼯作⼀部分的建模其他⽅⾯的进步相结合。”准确性不⾜在过去的⼏⼗年⾥,很少有新的抗⽣素被研发出来,主要原因是⽬前筛选潜在药物的⽅法过于昂贵和耗时。⼀个有前途的新策略是使⽤计算模型,从⽽更快、更便宜地进⾏新药研发。
此前,AlphaFold已经从它们的氨基酸序列中准确地预测了蛋⽩质结构,这项突破让致⼒于寻找新抗⽣素的科学家感到兴奋。
据介绍,这项新研究是Collins实验室最近发起的抗⽣素-⼈⼯智能项⽬(Antibiotics-AI Project)的⼀部分,该项⽬的⽬标是利⽤⼈⼯智能发现和设计新的抗⽣素。
在此次⼯作中,研究团队利⽤AlphaFold⽣成的蛋⽩质结构,探索了现有模型是否能够准确预测细菌蛋⽩与抗菌化合物的相互作⽤。如果答案是肯定的,科学家们就可以使⽤这种类型的模型进⾏新化合物的⼤规模筛选,⽽这些化合物可以靶向于之前不能靶向的蛋⽩质。这将使研发出具有前所未有作⽤机制的抗⽣素成为可能,是解决抗⽣素抗药性危机的关键任务。
为了测试这⼀策略的可⾏性,Collins团队决定研究296种来⾃⼤肠杆菌(E. coli)的必需蛋⽩质与218种抗菌化合物的相互作⽤,其中包括四环素(Tetracyclines)等抗⽣素。他们使⽤分⼦对接模拟分析了这些化合物如何与⼤肠杆菌的蛋⽩质相互作⽤,根据它们的形状和物理性质,来预测两个分⼦结合在⼀起的强度。
这种模拟已经成功地应⽤于针对单个蛋⽩质靶标筛选⼤量化合物的研究中,来确定可以实现最佳结合的化合物。但是,当他们试图针对许多潜在⽬标筛选多种化合物时,预测的准确性要低得多。
通过将模型产⽣的预测与实验室实验中获得的12种必需蛋⽩质的实际相互作⽤进⾏⽐较,研究团队发现,模型的假阳性率与真阳性率相似。这就表明,该模型⽆法⼀致地识别现有药物与其靶标之间的真正相互作⽤。
此外,研究团队借助常⽤于评估计算模型的测量⽅法auROC发现,模型表现出的性能也⽐较差。对此,Collins表示:“我们利⽤这些标准的分⼦对接模拟,得到了⼀个⼤约为0.5的auROC值,这⼀数字表明,模型的表现并不⽐随机猜测的表现更好。”当研究团队对实验确定的蛋⽩质结构使⽤这种建模⽅法时,他们发现了类似的结果。
Collins说:“AlphaFold预测的结构似乎与实验确定的结构⼤致相同,但如果我们要在药物发现中有效和⼴泛地使⽤AlphaFold,我们需要在分⼦对接模型⽅⾯做得更好。”
对于以上结论,研究团队表示,AlphaFold模型性能差的⼀个可能原因是,输⼊模型的蛋⽩质结构是静态的,然⽽在⽣物系统中,蛋⽩质是动态的,它们的构型经常会发⽣变化。
为了提⾼建模⽅法的成功率,研究团队使⽤其他4个机器学习模型进⾏了预测。这些模型是根据描述蛋⽩质和其他分⼦如何相互作⽤的数据进⾏训练的,能够在预测中加⼊更多信息。“机器学习模型不仅学习已知相互作⽤的形状,还学习已知相互作⽤的化学和物理特性,然后利⽤这些信息重新评估对接预测,”论⽂共同⼀作Felix Wong说,“数据显示,这些额外的模型可以帮助我们得到更⾼的真阳性和假阳性的⽐率。”
然⽽,研究团队表示,在这种类型的模型被⽤来成功识别新药之前,还需要进⼀步的改进,⼀个可能的⽅法是在模型训练中加⼊更多的数据,包括蛋⽩质的⽣物物理和⽣化特性及其不同构象,以及这些特征如何影响它们与潜在药物化合物的结合。Collins认为,随着进⼀步的进展,科学家或许不仅可以利⽤⼈⼯智能产⽣的蛋⽩质结构发现新的抗⽣素,⽽且还能发现治疗包括癌症在内的各种疾病的药物。
“我们乐观地认为,随着建模⽅法的改进和计算能⼒的增强,这些技术将在药物发现中变得越来越重要。然⽽,我们还有很⻓的路要⾛。”