一个“蛋白质宇宙”诞生了。2021年7月刚推出之际,AlphaFold数据库拥有35万个蛋白质预测结构,如今这个数据达到了2.14亿个,库容翻了610倍。
7月28日,DeepMind公布的这个蛋白质数据库已经囊括了几乎所有地球生物物种,包括动物、植物、细菌、真菌等等,据《自然》官网报道,DeepMind的合作方、欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)称,在超过2.14亿个预测结构中,约35%与实验确定的蛋白质结构一样高度准确,另外45%的预测结构也到达了很高的可信度,能用于后续多种研究和应用。
从建立之初,这个数据库就是免费开放的,如今已成为科学家的必备工具。据EMBL-EBI数据,迄今已有超过1000篇科学论文引用了AlphaFold数据库,来自190个国家的50多万名研究人员访问过该数据库,查看了超过200万个蛋白质结构。目前,DeepMind测定的这些蛋白质结构也被整合到其他的公共数据库中,将为数百万研究人员的日常工作提供参考。
AlphaFold数据库就是蛋白质结构的“谷歌搜索”,要认识某个蛋白质结构只需在数据库搜索可立即获得结果,这可以让科学家能够集中精力加快实验研究。按照DeepMind创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)的看法,这是迄今为止人工智能系统在推进科学发展中做出的最大贡献。
他在DeepMind的官方博客中称,从抗击疾病到开发疫苗,AlphaFold已经取得了令人难以置信的进展,而这只是开始。
从科研人员对该数据库的热情就可以想见其对科学研究的价值,仅DeepMind在《自然》杂志上发表的2篇论文已被引用超过4000次。可以说,AlphaFold实现了AI在生命科学领域的雄心。斯克利普斯研究所创始人埃里克·托普(Eric Topol)的看法是,AlphaFold是AI在生命科学领域取得的唯一的重大进展,以前确定一个蛋白质的三维结构需要数月或数年,现在只需要几秒钟。
事实上,按照哈萨比斯的说法,这个数据库的价值可以覆盖从了解疾病到保护蜜蜂,从解决生物学难题到深入研究生命起源本身,对解决一些重要的问题,例如可持续发展、燃料问题、粮食不安全和被忽视的疾病等,都将产生重大的影响。该数据库已经在疟疾的治疗中发力了。
今年5月,牛津大学的生物化学教授马修·希金斯(Matthew Higgins,从事疟疾研究)领导的研究团队宣布,他们已经使用AlphaFold帮助确定了一种来自疟原虫的关键蛋白质的结构,并找出能阻止疟原虫传播的抗体可能结合的位置。
而环境研究,也会因为这一数据库而受益。据《卫报》,英国朴茨茅斯大学的结构生物学教授兼酶创新中心(CEI)的主任约翰·麦吉汉(John McGeehan)正在使用AlphaFold来识别自然界中的酶的结构,以期找到能消化和回收塑料的酶。他们已经发现了从未见过的三维的蛋白质结构具有分解塑料的功能。
如果把AlphaFold看作一个人,它大概会是成长飞速的天才少年。
DeepMind隶属于谷歌的母公司Alphabet,击败了传奇围棋选手李世石的AlphaGo亦为其旗下产品。2016年,击败李世石后不久,DeepMind成立了针对“蛋白质折叠问题”的研究团队。到2018年,DeepMind首次公开了AlphaFold的预测结果,其成果发表在《自然》上。
2020年11月30日,AlphaFold2以巨大优势在国际蛋白质结构预测竞赛(CASP)中一举夺魁,其预测的蛋白质结构已达到原子精度,可与实验测得的结构相媲美。
当然这个数据库并非万能,科学家有更高的期待。伦敦帝国理工学院教授基思·威尔逊(Keith Willison)称,AlphaFold在蛋白质折叠方面仍有问题需要解决。AlphaFold只能基于已知实验数据进行预测,但对于无法折叠成稳定3D结构的蛋白质就无能为力了,这些蛋白质通常具有不稳定和不可预测的折叠模式。