结构生物学领域有一个非常经典的口头禅,即结构决定功能。对于现代生物学和新药研究来说,确定生物大分子的三维结构对于其功能理解,新药开发具有重要意义。然而,在科技高度发达的今天,各大科研机构和药企往往需要耗费数百万美元的资金来确定某个生物大分子的结构,且经常失败。尤其是在 RNA 领域,目前人类对于 RNA 分子三维立体结构的认知仍旧处于起步阶段。
加州大学欧文分校化学家 Robert Spitale 也曾说过,“我们对大部分 RNA 的结构几乎一无所知。”
而现在,人们终于在 RNA 三维结构领域取得了突破性进展。
近日,美国斯坦福大学在读博士生 Stephan Eismann 和 Raphael Townshend 在计算机副教授 Ron Dror 的指导下,利用目前先进的神经网络技术,成功开发出了一种全新 RNA 三维结构预测模型——ARES。与其他传统 AI 算法不同,ARES 的结构框架并不是针对 RNA 结构设计,而是针对原子结构设计的。
通过不断调整参数,ARES 可以深入了解 RNA 上每个原子之间的相对位置以及几何排列,进而推算出 RNA 最佳三维几何结构,其准确性远超传统方法。
对于这一研究结果,Eismann 博士表示,“传统 RNA 三维结构预测模型主要针对 RNA 结构设计,这样设计的算法得出的结构更倾向于 AI 训练时所使用的 RNA 结构,由于目前人们对 RNA 三维结构了解并不多,因此这类算法并不准确。而我们更倾向于从原子结构出发,让系统自己去寻找 RNA 的空间结构,因此它能更好地发现我们此前未知的结构。”
该研究以“Geometric deep learning of RNA structure”为题,发表在最新一期的 Science 杂志上。自 1953 年 DNA 双螺旋结构发现至今的几十年来,生命科学的舞台一直被 DNA 和蛋白质霸占。DNA 负责遗传信息存储,蛋白质负责基因指令执行,而 RNA 不过是中间环节的传递者。
正是基于蛋白质领域的诸多发现,科学家们成功制造出了胰岛素、干扰素以及各种新型抗癌药物等先进的医学成果。同时,通过改造 DNA,科学家门也在基因疗法治疗血友病、遗传学失明以及其他疑难杂症上取得了长足的进步。然而,人类过去在生物医药领域的征途中,一直忽略了 RNA 分子的存在。
虽然,科学家很早就知道 RNA 参与了几乎所有的细胞过程,但是由于 RNA 的结构不如 DNA 稳定,长期以来 RNA 一直被当做配角,笼罩在 DNA 和蛋白质的光芒之下。当然,生物学家现在已经知道,人类基因组 85% 能转录成 RNA,但大部分 RNA 并不会翻译成蛋白质,而是拥有多种多样功能的调节分子,RNA 不仅传递蛋白质合成的遗传信息,也是控制基因活性和调节其他 RNA 功能的重要因素。
而 RNA 药物的出现,更是颠覆了传统药物研发的逻辑思路。从理论上讲,只要知道致病基因的序列,设计与致病序列互补的 RNA,即可从源头控制致病蛋白的翻译表达,以达到治疗疾病的目的。以 RNA 作为靶点,可以极大地丰富了药物靶点的选择,为药物研发带来新的变革。因此,近年来,越来越多的研究者和商业团体将目光投向了 RNA 疗法。
RNA 开始作为治疗药物引领现在生物医药的浪潮,未来有望和抗体、小分子抑制剂一样,成为生物医药领域最闪耀的新星。
解析 RNA 三维结构序列决定结构,结构决定功能,这是 RNA 和蛋白质这样的生物大分子的基本法则。这也是为什么科学家热衷于研究这些生物分子机器精细结构的深层原因,因为只有知道了结构才能知道功能背后的原理。长期以来,科学家对 RNA 复杂多样的结构并不十分了解。
DNA 是能预测的双螺旋结构,RNA 与 DNA 不同,是单链折叠成的隆起、假结、头样、发夹等多种多样的复杂三维循环结构。满足不同功能状态的需要,不同折叠能相互转化。科学家对 RNA 的上述信息了解非常肤浅,这也是目前 RNA 功能研究中最薄弱的环节。近年来,科学家开始对 RNA 结构研究发起挑战。
Bevilacqua, Weissman 等设计的技术能对细胞内大量 RNA 结构进行整体解析,初步研究结果发现,活细胞内 RNA 折叠方式与人工条件下的完全不同。RNA 分子通常有一个线性核苷酸链,但在细胞核内合成后,会通过自身核苷酸配对迅速折叠,然后进一步折叠成复杂三维结构,与蛋白和其他 RNA 分子发生相互作用时会改变形状。
研究 RNA 结构的大部分技术利用核苷酸相互结合的特点,或者序列对某些酶的敏感性。计算机模拟技术也有助于整体结构的分 析。但是这些方法非常繁琐,一次只能分析一个分子的一部分。因此,虽然越来越多的证据表明,从细菌到人类功能性 RNA 无处不在,理论上靶向 RNA 可以治疗人类任何疾病,但是由于无法准确获得 RNA 的三维结构,有关 RNA 的基础研究和药物拓展一直受阻。
AI 算法解决结构生物学挑战预测蛋白质复合物以及 RNA 三维空间结构是生物化学领域一项巨大的挑战,对于基础科学和药物研发具有重大的意义。Stephan Eismann 博士等人致力于相关的研究。以往蛋白质复合物以及 RNA 等生物大分子结构人工智能预测模型通常会直接利用给定的结构特征来进行训练。然而,在研究过程中,人们发现,这种利用上述方法开发出的模型预测结果往往偏向于模型训练时喂养结构的特征。
因此,即使科学家努力试图对模型进行优化,但是预测的准确性依旧十分有限。为了准确预测蛋白质复合物以及 RNA 等生物大分子的三维结构,Eismann 博士等人换了一个角度思考,即能否直接利用人工智能学习上述生物大分子原子水平的结构,以提高预测结果的准确性。为此,研究人员基于深度学习网络开发了一种全新的人工智能模型,ARES。
与其他模型不同,ARES 旨在准确了解生物大分子中每个原子的准确位置和几何排列,以及不同原子之间的相对位置。早在 2020 年的时候,Eismann 博士等人就曾利用这一理论成功开发出了一种准确预测蛋白质复合物三维结构的模型,相关研究发表在 Proteins 杂志上。而在本研究中,Eismann 博士等人继续对 ARES 进行了优化。
研究人员采用原子坐标作为输入数据,而不包含 RNA 结构的空间特征。通过不断调整参数,ARES 首先了解每个原子的功能和空间排列,随后识别碱基配对规则、RNA 螺旋最佳几何形状以及三维空间结构。最终,研究人员仅用了 18 个已知 RNA 三维结构,就成功训练出了 ARES。
在随后的研究中,Eismann 博士等人证实,ARES 虽然仅由 18 个 RNA 结构训练而来,但是它同样可以准确预测其他复杂 RNA 的三维空间结构,且准确性均显著优于既往的模型。对此,Dror 教授表示,“人工智能近年来取得的重大突破均需要大量的数据训练,而 ARES 在训练数据如此少的情况下也取得了成功,这一思路为未来数据稀缺领域的科学研究提供新的解决方案。”