Google DeepMind AI成功预测上千万“错义突变”,有望解决人类遗传学难题

作者: 闫⼀⽶

来源: Science

发布日期: 2023-09-20 00:02:55

Google DeepMind的研究团队创建了AlphaMissense,通过利用蛋白质序列数据库和变异结构背景,成功预测了19233个标准人类蛋白质的216百万种可能的单一氨基酸变化的致病性,得到了7100万个错义突变的预测。AlphaMissense在广泛的遗传和实验性基准测试中实现了最先进的预测,有望解决人类遗传学中的最大挑战之一。

人⼯智能(AI)有望解决⼈类遗传学中的最⼤挑战之⼀。刚刚,来⾃Google DeepMind的研究团队基于AlphaFold⽅法论创建了AlphaMissense——通过利⽤蛋⽩质序列数据库和变异结构背景,可以识别致病的错义突变和未知致病基因。据介绍,与许多现有的类似⼯具(变异效应预测器或VEPs)相⽐,AlphaMissense表现出了更优越的能⼒。

具体来说,AlphaMissense成功预测了19233个标准⼈类蛋⽩质的216百万种可能的单⼀氨基酸变化的致病性,得到了7100万个错义突变的预测。随后,AlphaMissense更是成功预测出89%的错义突变,其中57%可能是良性的,32%可能是致病的。

相关研究论⽂以“Accurate proteome-wide missense variant effect prediction with AlphaMissense”为题,已发表在权威科学期刊Science上。

在⼀篇同期发的观点⽂章中,爱丁堡⼤学的计算蛋⽩质⽣物学教授Joseph A. Marsh和剑桥⼤学研究院兼维康桑格研究所细胞遗传学负责⼈Sarah A. Teichmann评价道:虽然该研究⽆疑对变异解释和优先处理有所帮助,但重要的是不要将这些标签与这些术语具体的临床定义混淆,后者依赖于多条证据。

值得⼀提的是,Google DeepMind已经将AlphaMissense的所有预测免费提供给了研究社区,并开源了AlphaMissense模型的代码。成功预测89%的错义突变,错义变异是指⼀种可以改变蛋⽩质氨基酸序列的遗传变异。致病性错义变异会严重破坏蛋⽩质功能,降低⽣物体适应性,⽽良性错义变异的影响有限。

在超过400万个观察到的错义变异中,仅有约2%被临床分类为致病性或良性,对剩余未知的变异进⾏分类是⼈类遗传学中的⼀个重要挑战。缺乏准确的错义变异功能预测限制了罕⻅疾病的诊断率以及针对潜在遗传原因的临床治疗的开发和应⽤。虽然多重分析变异效应(MAVEs)系统地测量蛋⽩质变异的效应并可以准确预测变异的临床结果,但MAVEs实验需要⾼昂的费⽤和劳动⼒,因此蛋⽩质组范围内的变异致病性调查仍然不完整。

机器学习⽅法可以通过利⽤⽣物数据中的模式来预测未注释变异的致病性,从⽽缩⼩这种变异解释差距。AlphaFold的成功已经证明,可以使⽤蛋⽩质序列作为输⼊来预测⼤规模的⾼精度蛋⽩质结构,⽽这种蛋⽩质结构模型可以作为理解蛋⽩质⽣物学其他⽅⾯(如变异致病性)的基础。

在该研究中,借助AlphaFold的⽅法论,AlphaMissense结合了现有策略的三个元素:1)基于⼈⼝频率数据的弱标签训练,避免使⽤⼈⼯注释,从⽽避免了循环性;2)通过使⽤⽆监督的蛋⽩质语⾔建模任务来学习在序列上下⽂中条件化的氨基酸分布;3)通过使⽤AlphaFold派⽣的系统来整合上下⽂。据论⽂描述,AlphaMissense的训练分为两个阶段:结构预训练和变异微调。

其中,预训练阶段与AlphaFold中描述的相同,但在蒙版多序列⽐对重建损失上增加了更⾼的权重;在微调期间,模型被优化,可以同时预测变异的致病性和参考序列的结构。以往研究表明,良性训练变异是基于在⼈类和其他灵⻓类物种中频繁观察到的变异,这些变异是根据PrimateAI⽅法来定义的,⽽致病性训练变异则是从未在⼈类群体中观察到的变异中进⾏抽样,抽样权重取决于三核苷酸上下⽂和基因。

AlphaMissense不预测突变对蛋⽩质结构的影响或对蛋⽩质稳定性的其他影响。相反,它利⽤相关蛋⽩质序列的数据库和变异的结构背景来⽣成⼀个介于0和1之间的分数,这个分数评估了变异可能是致病性的概率。连续的分数允许⽤户选择⼀个阈值,以符合其精确度要求,从⽽可以将变异分类为致病性或良性。AlphaMissense将7100万个可能的错义变异中的89%分为可能致病或可能良性两类。

相⽐之下,仅有0.1%的变异已被⼈类专家确认。AlphaMissense在⼴泛的遗传和实验性基准测试中实现了最先进的预测,⽽且完全没有明确地在此类数据上进⾏训练。此外,该模型在⽤于分类ClinVar(⼀个关于⼈类变异与疾病关系的公共数据存档)中的变异时表现也优于其他计算⽅法。

有望解决⼈类遗传学难题,毫⽆疑问,AlphaMissense的预测阐明了变异对蛋⽩质功能的分⼦影响,这有助于识别致病性错义突变和未知致病基因,同时提⾼罕⻅遗传疾病的诊断率。此外,AlphaMissense还将促进专⻔的蛋⽩质变异效应预测器的进⼀步发展。

然⽽,Marsh和Teichmann也指出了AlphaMissense的⼀个局限性:⽬前其预测器的结构组成部分并没有考虑到⼤多数蛋⽩质会组装成具有多样四聚体结构的复合物或凝聚体。对于形成复合物的蛋⽩质突变,可能会导致疾病,但仅考虑单体结构时这种⽅式可能并不明显。此外,尽管许多与疾病相关的突变通过蛋⽩质不稳定性或复合物组装的破坏导致功能丧失,但在其他情况下,突变蛋⽩质通过显性负效或增效效应引发疾病。

因此,有趣的是观察AlphaMissense在⾮丧失功能变异⽅⾯的表现,这些变异通常对氨基酸的⼲扰较⼩,⼏乎所有先前测试过的变异效应预测器(VEPs)都难以准确预测这类变异。最终,结合蛋⽩质四聚体结构的信息,可能可以通过预测蛋⽩质复合物结构的算法来实现,这有望在变异效应预测领域带来更⼤的改进。

UUID: 05ad0b0c-fe59-4eb4-8eed-d3d9b7d1091e

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-09-20_Science重磅:GoogleDeepMind又一突破,AI成功预测上千万“错义突变”,有望解决人类遗传学难题.txt

是否为广告: 否

处理费用: 0.0063 元