众所周知,蛋白质是生命活动的基本组件,它们可以单独存在,也会协同工作。为了发挥作用,这些长链氨基酸扭曲、折叠并交织成复杂的形状,这些形状可能很难,甚至根本不可能破译。科学家们一直在梦想通过基因序列简单地预测蛋白质形状——如果能够成功,这将开启一个洞察生命运作机理的新世界。然而近五十年来,人们的进展缓慢。
7月15日,《自然》杂志一篇论文被接收的消息引发了人们的关注,谷歌旗下人工智能公司DeepMind在研究《Highly accurate protein structure prediction with AlphaFold》中宣布,人们首次发现了一种通过计算来预测蛋白质结构的方法。即使在不知道相似结构的情况下,AI也可以在原子层面上精确预测蛋白质结构。
也就是说,之前备受关注的AlphaFold2终于开源了。
无独有偶,作为相当热门的研究领域,Science同样在今天发表了一篇论文,介绍并开源了一个可媲美AlphaFold2的新工具RoseTTAFold。所以说,赛马了,感兴趣的同学可以自由选择。
2020年12月的国际蛋白质结构预测竞赛CASP,一项重磅成果引发了科技界所有人的关注:由DeepMind开发的AlphaFold2击败一众选手,在准确性方面达到比肩人类实验结果,被认为是蛋白质折叠问题的解决方案。在两年一次的CASP竞赛中,各组争先预测蛋白质的3D结构。2020年,AlphaFold击败了所有其他小组,并在准确性方面与实验结果相匹配。
它能以就计算机方法而言前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。这破解了出现五十年之久的蛋白质分子折叠问题,同时证明了AI对于科学发现,尤其是基础科学研究的影响。科学家们纷纷表示,这项突破极具意义。Alphafold的突破性研究成果将帮助科研人员弄清引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的「超级酶」研发铺平道路。
因此,这段时间以来,科研圈也在等待AlphaFold2的技术细节。不久之前,Demis Hassabis就曾在Twitter上表示DeepMind将开源AlphaFold2,如今终于兑现承诺。
7月15日,Demis Hassabis、John Jumper等人在Nature杂志上发表了文章《Highly accurate protein structure prediction with AlphaFold》,描述并开源了AlphaFold2,它预测的蛋白质结构能达到原子水平的准确度。在文章中,DeepMind表示AlphaFold可以周期性的以原子精度预测蛋白质结构。
在技术上,AlphaFold利用多序列对齐,进行深度学习算法的设计,还结合了关于蛋白质结构的物理和生物学知识提升效果。作为通讯作者之一,Demis Hassabis在一段声明中写到,「去年在CASP14大会上我们揭晓了一个可以将蛋白质3D结构预测精确到原子水平的全新AlphaFold系统,此后我们承诺会分享我们的方法,并为科学共同体提供广泛、免费的获取途径。
今天我们迈出了承诺的第一步,在《自然》期刊上分享AlphaFold的开源代码,并发表了系统的完整方法论,详尽细致说明AlphaFold是如何做到精确预测蛋白质3D结构的。作为一家致力于推动科学进步的公司,我们期待看到我们的方法将为科学界启发出什么其他新的研究方法,也期待很快能和大家分享更多我们的新进展。」
华盛顿大学医学院蛋白质设计研究所的研究者们很大程度上重现了DeepMind在蛋白质预测任务上的表现,他们联合哈佛大学、德克萨斯大学西南医学中心、剑桥大学、劳伦斯伯克利国家实验室等机构研发出了一款基于深度学习的蛋白质预测新工具RoseTTAFold,在预测蛋白质结构上取得了媲美AlphaFold2的超高准确率,而且速度更快、所需要的计算机处理能力也较低。这项研究已经在Science上发表。
华盛顿大学医学院团队也向社区开源了该工具,来自世界各地的科学家都可以使用它来构建蛋白质模型,加速自己的研究。在上传至GitHub后不久,该工具就已被140多个独立研究团队下载。