AI预测蛋白质结构:科学突破与生物学应用

作者: 乐子超人

来源: biokiwi

发布日期: 2022-08-07 10:16:55

本文讨论了《科学》杂志提名的年度科学突破之一——AI预测蛋白质结构,分析了AI在蛋白质结构预测中的神奇效率和应用价值,以及它对生物学研究的深远影响。文章详细介绍了蛋白质结构的复杂性、传统解析方法的局限性,以及AI如何通过算法显著提升预测精度和速度,为生物学研究带来了革命性的变化。

2021年年末,《科学》杂志提名了十项年度科学突破,其中不少进展与生命科学息息相关,而且充分展现了现阶段科学突破中,生命科学与其他学科交叉碰撞出来的强大能量。今天我们来聊聊这里面最受瞩目,同时也是连续两年入选的一项——AI预测蛋白质结构。过去的几十年里,世界各地的顶尖结构生物学家完成了大约18万种蛋白质结构的解析;但在过去的两年里,AlphaFold完成了人体内几乎所有蛋白质的结构预测。

AI预测蛋白质结构为何如此神奇?又有哪些价值?我们先不谈蛋白质结构,说到人工智能,大家会想到什么?我猜大多数人都会想到,几年前在围棋上战胜人类的AlphaGo。那场比赛展现了人工智能在计算上的超凡能力——如何运用算法实现对围棋的推演,并胜过人类。这场比赛相信不少人还历历在目。那再看回这项science评选出来的突破,你脑袋上一定有很多问号:什么是蛋白质?它的结构很复杂吗?

为什么要用人工智能来预测蛋白质结构?说起蛋白质,相信不少人其实并不陌生,甚至了解蛋白质是细胞里行使各种功能的“元件”。不仅如此,蛋白质也是组成我们身体的基本物质之一。比如说健身可以锻炼肌肉,但想要肌肉增强变大,就必须有足够的蛋白质供给才行。餐桌上的鸡蛋、牛奶以及各种肉类都是富含蛋白质的食物,对于人类来说,蛋白质唾手可得;但是,想要得到蛋白质的结构却难于上青天。

因为蛋白质的结构非常复杂:简单讲,氨基酸组成蛋白质,一个个氨基酸会有叫肽键的结构链接,它的连接可以形成两种不同的角度。

那现在给大家出一个简单数学题:假设有100个氨基酸组成蛋白质,那就需要99个肽键,99个肽键有两种不同角度的结构,同时不同角度还会有三种可能的稳定结构,那就是3的198次方种可能,你要是慢慢穷举,从宇宙爆炸到现在都数不完,这就是利文索尔悖论——蛋白质结构非常非常多样,没办法用穷举来算完。结构这么复杂该怎么办?

生物学家最直接的想法就是观测,用不同的方法来测量:上世纪五六十年代,用的是X光衍射——把蛋白质结晶,然后打上X光,通过反射的角度可以推测蛋白质长什么样子,这个难点就是怎么把蛋白质纯化结晶出来。另一个现在很热门的研究方法叫冷冻电镜,就是利用冷冻切片技术,加上电子显微镜直接看蛋白质结构,但缺点就是非常非常贵,太烧钱了。那大家猜猜这么些方法,测量了几十年了,我们分析出来多少个蛋白质结构?

其实已经不少了,根据数据库记载,现在实验已经解析了18万种蛋白质。但是相对的,我们刚刚说到蛋白质是氨基酸组成的,只要测序技术测得到DNA序列,就能推导出蛋白质序列。查找数据库可以发现,现在已知的有十几亿种蛋白质序列,这和18万之间差了将近一万倍。所以结构生物学家就很苦恼——测序太简单了,导致结构生物学远远跟不上测序的速度。所以很多开发算法的计算生物学家就想预测结构,通过算法预测肯定比做实验快很多。

但是刚刚也说了利文索尔悖论,预测结构非常非常难,你要是穷举那是天文数字。所以有很多的计算思路,比如我可以类比,实验解出来的结构我可以类比相似的序列,推测相似的序列会不会有相似的结构,这个叫同源建模;也可以拆开来类比,比完再像缝缝补补拼积木一样把结构拼出来,这个叫穿线法……但是这么多方法都有个问题:精度特别差。这就好像我想看1080P的高清视频,但是怎么调都只有马赛克高糊版,看都看不清。

为了促进各国科学家不断向前,从1994年开始,每两年都会举办CASP,叫蛋白质结构预测关键测试,来评估大家的算法预测准不准,来提高算法的精度。简单来说就是从各种蛋白质序列里挑几个出来,一边让结构生物学家做实验解出一个“标准答案”,然后计算生物学家就用自己的算法来比,看看谁跟标准答案更接近。但很遗憾,24年过去了,仍然进展很慢。

直到2018年,一个叫AlphaFold的方法出来,得到了80分的高分,两年之后2020年AlphaFold二代打分到了90分,基本就和实验做出来的标准答案一样了。这个大家也知道了,就是Deepmind公司开发的人工智能方法。所以去年的science十大突破,其实也有AI预测蛋白质结构。那怎么今年又有突破了?这是因为这个算法实际应用到了生物学上了。

一是Deepmind开发的AlphaFold2算法,在短短几个月时间里,就把几十年结构生物学家解析的没解析完的蛋白质都解了:人体98%的蛋白质都试着预测了一遍,其中三分之一能准确预测,还有一些也能大概预测一半多。同时他们声称后面几个月就把数据库扩展到一亿个蛋白质。这就比实验方法快了上万倍了。

另一个生物学上的应用,是同样基于人工智能算法开发的RoseTTAFold,它挑战的是更难的领域——怎么预测蛋白质和蛋白质相互结合,也在短时间预测了几千种蛋白质的相互结合。不少人可能要问了:预测一亿多种蛋白质,能有什么用呢?我们最开始就提到了蛋白质在我们生活无处不在,而蛋白质要发挥功能,基础是要有一定的结构。

所以预测蛋白质结构,可以帮助我们更好地理解蛋白质的功能,进而去比如构建蛋白质分子药物,或者研究复杂的生物化学现象。一个最简单的例子,比如现在我们知道新型冠状病毒的新变异奥密克戎传播力特别强,而这传播关键的刺突蛋白结构,就可以利用人工智能来预测,进而可以推测什么药物或者治疗方法可以更有效的针对奥密克戎。

但同时,虽然说人工智能已经完成了结构生物学家很多的工作,但是这个预测仍然是不完善的:比如有些复杂的结构,可能结构生物学家实验还没有解析出来,人工智能也就还没办法学习到,因此也预测不出来,所以很多问题仍然需要结构生物学家的深入探究;还有很多蛋白在发挥功能的时候是一个动态变化的过程,这种时候预测的结果就不准确,还是用1080P举例的话,就是理论上是1080P的视频,但是人工智能在这几秒预测出来是1080P高清,那几秒预测出来却是马赛克,所以也不准确。

这些都是人工智能预测蛋白质的瑕疵,但是瑕不掩瑜,人工智能在蛋白质结构预测带给我们的惊喜实在太多了,而这项年度突破,就是计算科学在生命科学上最好的应用。

UUID: 7f805403-85ac-4e90-a02b-6972d8c04c46

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院物理所公众号-pdf2txt/2022/中科院物理所_2022-08-07_「转」在这方面,AI的效率是生物学家的上万倍.txt

是否为广告: 否

处理费用: 0.0062 元