在我们身体的每个细胞中,有数十亿个正在努力工作的微型机器——它们在我们的血液中携带和运输氧气,让我们的眼睛能感知光线,甚至我们的肌肉能够正常运动也与它们有关,这些机器就是蛋白质。蛋白质支撑着所有生物的每一个生物过程,每种蛋白质都是具有独特的三维形状的复杂大分子。如果将每种蛋白质都解开,你会发现它们就像一串串由20种不同的氨基酸,以不同的顺序排列组合构成的氨基酸链。
氨基酸之间的相互作用使蛋白质折叠成几乎有着无限可能的形状。蛋白质形状的折叠和盘绕被称为“蛋白质折叠”问题,它们的结构在很大程度上决定了其功能及运作方式。能够准确预测蛋白质的结构可以帮助科学家了解一些问题,例如突变是如何改变蛋白质形状从而导致疾病的。这些信息能进一步帮助研究人员更好地研制疫苗和药物。
一直以来,科学家试图用各种方法来破解蛋白质形状的秘密,比如他们会使X射线轰击蛋白质晶体。
这些实验方法大多需要投入大量的人力、时间和金钱。目前,科学家已经发现了超过2亿种蛋白质,而且这一数字每年都在增加,但其中只有约20万个蛋白质的三维结构是通过这些细致而昂贵的实验工作揭示的。可以说,遗传学家破译制造蛋白质的DNA指令的速度,已经远远超过了结构生物学家解构蛋白质的能力。因此,许多研究人员一直梦想着能拥有一种可以预测蛋白质会如何折叠的计算机程序。
由DeepMind团队开发的AlphaFold,就是一个专门为解决这个难题而发展出的人工智能系统。1994年,对蛋白质折叠感兴趣的科学家组织了学术论坛CASP(蛋白质结构预测的关键评估),目的是为了让相关领域的研究人员能更好地分享和交流研究进展。CASP还为研究人员设立了一项两年一次的预测蛋白质结构的比赛。
参与比赛的选手需要利用他们的算法,对一组已通过实验确定结构的蛋白质进行结构预测,然后将机器预测的结果与实验测得的结果进行比较,检查预测的准确性。大多数人工智能都无法得到接近蛋白质的实际形状的结果。
AlphaFold的发展最早可以追溯到2016年,那时,DeepMind团队开始酝酿应对这一挑战。
他们结合了几种深度学习技术,利用由世界各地的科学家苦心绘制出的10多万种蛋白质的序列和结构对AlphaFold进行训练。2018年,AlphaFold在这项比赛中获得了第一名。2020年,AlphaFold的出现惊艳了众人。它以高准确率预测了90%的测试蛋白质的结构,其中2/3的结果有着能与实验方法相媲美的准确率。
2021年,AlphaFold预测了35万个蛋白质结构,这包括了几乎所有已知的人类蛋白质。DeepMind与欧洲分子生物学实验室的欧洲生物信息学研究所合作,将这些结构提供到一个公共数据库中。到了今年7月,当世界各地的人们惊叹于韦布空间望远镜拍摄到的最美宇宙图片时,生物学家则首次瞥见了一组足以掀起一场生命科学研究革命的图像,这些图像正是由AlphaFold渲染的2亿多蛋白质的3D预测形状。
可以说,AlphaFold已经将基因库扩展到了地球上几乎所有进行过基因组测序的生物,它覆盖的是整个蛋白质“宇宙”。现在,我们可以像在搜索引擎中搜索关键词一样,轻松地查找蛋白质的3D结构。虽然这些都只是预测的结构而非实际结构,但大量数据集的发布受到了许多科学家的热烈欢迎。因为他们可以利用这些预测来开发潜在的新疟疾疫苗,提高对帕金森病的了解,研究如何保护蜜蜂的健康,深入了解人类进化等。
自AlphaFold在2021年的发布以来,已有超过50万名科学家访问了AlphaFold的数据库。一些研究人员利用这些预测来辅助他们更接近于完成一个巨大的生物学谜题:核孔复合体。
核孔是允许分子进出细胞核的关键通道。没有核孔,细胞就不能正常工作。相对来说,每个核孔都很大,由大约1000个约30种左右不同的蛋白质组成。研究人员此前已经成功地确认了其中30%的蛋白质。
在6月10日发表于《科学》杂志上的报告称,通过将实验结果与用AlphaFold预测的结果相结合来了解每一个蛋白质是如何组合在一起的之后,这个谜题现在几乎完成了60%。如今,AlphaFold可以仅凭氨基酸序列就能准确预测蛋白质的形状。换句话说,现在的AlphaFold基本上已经解决了如何折叠单个蛋白质的问题。
今年,CASP的组织者要求参赛者进行的挑战是:预测RNA分子的结构,建立蛋白质之间以及蛋白质与其他分子之间相互作用的模型。对于这类任务,深度学习的人工智能方法看起来很有前景,但还没有完全实现。
AlphaFold为研究人员提供了一项无比强大的工具,使他们能用AlphaFold的蛋白质预测来更好地理解实验数据。
但与此同时,也有越来越多的科学家开始呼吁,研究人员不能将人工智能的预测奉为真理,不应该觉得有了人工智能就不需要做实验来确定结构了,也不应该把这些预测的结构完全视作蛋白质的真实形状。因为错误的预测仍有可能存在,而且AlphaFold对不同蛋白质的预测的准确性也不尽相同。此外,AlphaFold还需要具有能够模拟蛋白质之间的相互作用的能力。
因为大多数蛋白质都不是孤立运作的,它们会与细胞中的其他蛋白质或其他分子一起工作。但是,当AlphaFold在预测蛋白质相互作用时,对两种蛋白质的形状如何变化的准确性远远不及它对大量单一蛋白质的精确预测。不仅如此,AlphaFold还可能存在“过于死板”的问题,它无法带来动态图景。静态的结构并不能告诉我们蛋白质是如何工作的,即使是结构明确的单个蛋白质,也不会在形态上保持不变。
例如酶在引导化学反应时,就会发生微小的形状变化,如果让AlphaFold预测一种酶的结构,它所显示的会是一个固定的图像,这个图像可能与科学家通过X射线晶体学确定的非常相似,但它显示不了任何微小的变化,这样一来,研究人员就无法从中了解这些蛋白质在与其他蛋白质发生怎样的相互作用。因此,在现阶段来说,实验对于理解蛋白质是如何折叠的仍然至关重要。
不过,科学家也不必对此过于悲观。
或许对于那些AlphaFold能够很好地预测的蛋白质类型上,我们的确不需要投入大量的实验资源,这样能有助于结构生物学家对时间和金钱的投入进行管理。AlphaFold还在努力研究一些具有挑战的蛋白质,这都是需要耗费大量资金的领域。也许如果能为那些具有挑战性的蛋白质生成更多实验数据,就可以用它们重新训练一个人工智能系统,从而做出更好的预测。
现在,已经有研究人员在对AlphaFold进行逆向工程,制作了一个名为OpenFold的版本,研究人员可以训练它来解决其他问题,比如那些艰难但重要的蛋白质复合体。人类基因组计划产生的大量DNA使广泛的生物学发现成为可能,并开辟了新的研究领域。掌握2亿个蛋白质的结构信息同样可能是革命性的。
在未来,我们将会感谢AlphaFold以及和它相似的那些人工智能伙伴,来帮我们解决那些我们甚至不知道可能会遇到的问题。