会预测蛋白结构的AI,还要教我们设计新蛋白

作者: 曹龙兴、卢培龙

来源: 返朴

发布日期: 2020-12-11 11:50:21

本文介绍了AlphaFold2在蛋白质结构预测中的成功及其对蛋白质设计领域的深远影响。通过深度学习技术,科学家们能够提高蛋白质设计的精度和成功率,并开发出新的蛋白质设计方法,如trDesign,这些方法能够设计出自然界中不存在的蛋白质。

自然界经过了数千万年的生命进化过程,才产生了这么复杂而美丽的蛋白质世界,而神经网络竟然用极短的时间就能模拟这一过程。不久前,谷歌公司旗下的DeepMind研发的AlphaFold2人工智能系统在国际蛋白质结构预测竞赛(CASP)上取得惊人的准确度,多数预测模型与实验测得的蛋白质结构模型高度一致,引起了举世瞩目。实际上,蛋白质的结构不仅可以被预测,还可以被设计,二者互为“逆操作”。

蛋白质是由氨基酸组成的长链条高分子化合物。天然蛋白质基本上由天然氨基酸以一定的组合顺序排列形成,序列长度不定。天然氨基酸共有20种,化学组成和性质各不相同,它们在序列之间的相互作用决定了蛋白质折叠形成的形状、结构,以及折叠后的功能。通过编排蛋白质的氨基酸序列,使其能够自发折叠,形成所需要的三维结构,并具有一定的功能,这就是蛋白质设计了。蛋白质设计可以分为蛋白质的人工改造和蛋白质从头设计。

蛋白质的人工改造是基于现有蛋白质的结构进行一定的突变和进化。蛋白质的从头设计,是完全基于生物物理与生物化学原理的——它不依赖现有的天然蛋白质结构,而是从头搭建、设计具有全新结构和全新功能的蛋白质。AlphaFold2在蛋白质结构预测中取得了巨大成功,将直接促进蛋白质设计的发展,并会催生出一系列基于深度学习的蛋白质设计新方法。首先,深度学习算法可直接用于提高蛋白质设计的精度以及成功率。

由于蛋白质序列的排列组合空间极其巨大,且当前能量计算函数精度不足,所以蛋白质设计的成功率并不高。大部分计算机设计的全新氨基酸序列并不能折叠成、或者只能近似折叠成我们想要的结构。而要让设计出的蛋白质具有期望的功能,必须保证三维结构上的高精准度。目前,科学家已经使用深度学习在蛋白质设计领域做了很多尝试和努力,并取得了许多令人兴奋的结果。

比如,通过学习自然界中蛋白质结构与序列之间的关系,深度神经网络已经可以直接根据蛋白质的三维结构预测最佳的可折叠成该结构的氨基酸序列。这将大大加速整个蛋白质设计的过程,甚至彻底替代传统的、通过优化能量来设计氨基酸序列的过程。另外一个令人兴奋的结果是美国华盛顿大学David Baker实验室开发的基于深度学习的蛋白质设计方法——神经网络trDesign。

通过不断学习自然界中存在的蛋白质一级序列和三维结构,trDesign竟能自己顿悟、设想出全新的、自然界中不存在的蛋白质。经实验验证,这些蛋白质可以自发折叠成非常稳定的三维结构。

UUID: 924720a9-dc04-4e24-9170-09b8440b5c6f

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/返朴公众号-pdf2txt/2020/返朴_2020-12-11_会预测蛋白结构的AI,还要教我们设计新蛋白.txt

是否为广告: 否

处理费用: 0.0047 元