每当看到 AI 这个词,你脑海中是否会浮现出超级智能计算机?或者想到不需要人类辅助即可执行任务的机器人?或许,这些梦想并不遥远。近年来,机器学习在化学领域的应用正以惊人的速度增长,在材料性能预测、新材料探索与设计等领域也取得了很大进展。但是,机器学习与实验过程的直接耦合还存在巨大的挑战。
近日,一个包括美国国家标准与技术研究所(NIST)在内的多机构研究团队在 AI 研究领域取得了又一项重要研究成果:他们开发出了一种名为 CAMEO 的 AI 算法,该算法在不需要科学家额外训练的情况下,自主发现了一种潜在的实用新材料。利用 CAMEO 算法实现的 AI 系统,可以有效地减少科学家在实验室中花费的“反复”实验时间,同时最大限度地提高科研效率。
该研究成果以“On-the-fly closed-loop materials discovery via Bayesian active learning”为题,于 11 月 24 日在线发表在科学期刊《自然-通讯》(Nature Communications)上。
对此,论文作者之一、NIST 研究员 Aaron Gilad Kusne 表示,在材料科学领域,科学家们一直以来都在不断寻求可用于特定应用场合的新材料,比如“一种可用于制造汽车的轻巧坚固金属,或者可承受喷气发动机的高应力和高温环境的材料”。
新材料的发现是推动现代科学发展与技术革新的源动力之一,而传统的材料研发需要进行大量的试验,效率低且成本高——要想寻找这样的新材料,不仅需要研究人员进行大量的实验,还需要耗费大量的时间去做理论调查。CAMEO 算法的“用武之地”正在于此,CAMEO 可以跳过那些会提供冗余信息的实验,确保每个实验都可以最大限度地帮助科学家获取知识和见解,提升他们的理解能力。
通过节省实验时间,可以有效帮助科学家更快实现其目标,也使实验室的有限资源能够得到更有效地利用。
CAMEO 是基于机器学习的一个自学习 AI 算法,为材料研究领域的探索提供了一种全新的范式。CAMEO 通过闭环操作来寻找有用的新材料,首先从数据库中加载材料数据,然后通过贝叶斯机器学习对数据进行分析,预测未知材料的结构和功能特性,并通过主动学习来确定下一步要研究的最有价值的材料。在进行下一轮实验之前,CAMEO 还可以要求科学家根据过去所执行的实验经验,提供材料的晶体结构等信息。
CAMEO 算法还被设计成包含关键原理的知识,包括过去的模拟和实验室实验的知识、设备的工作原理以及物理概念。例如,研究人员使 CAMEO 掌握了相位图知识,相位图描述了材料中原子的排列如何随化学成分和温度的变化而变化。而理解原子在材料中的排列方式对于确定材料的特性至关重要,根据排列方式可以确定材料的硬度、电绝缘性,以及材料的应用场合。
CAMEO 算法安装在一台计算机上,通过数据网络与 X 射线衍射设备相连接,通过确定 X 射线反射的角度,科学家们可以确定原子在材料中的排列方式,从而弄清楚材料的晶体结构。在每次进行新的迭代时,CAMEO 都会从过去的测量中学习并确定下一个要研究的材料。这使得 AI 可以探索材料的成分如何影响其结构,并确定完成任务的最佳材料。
CAMEO 就是使用这种方法发现了 GST467 材料。CAMEO 通过给定的 177 种潜在的材料进行研究,这些材料涵盖了大范围的组成配方。为了获得这种材料,CAMEO 耗时 10 小时完成了 19 个不同的实验,相比之下,一个科学家大约需要 90 个小时才能完成同样多的实验。
CAMEO 发现的新材料 GST467 由三种不同的元素(锗、锑、碲,Te-Ge-Sb)组成,是一种相变存储材料,即当它受热迅速熔化时,其原子结构会从晶态(原子在指定的、有规律的位置上的固体材料)变为非晶态(原子在随机位置上的固体材料)。这种相变存储材料被用于数据存储等电子存储应用程序。
研究人员认为,不只是 GST467,CAMEO 还可以发现许多其他材料。如今,他们已经将 CAMEO 的代码开源,免费提供给科学家和研究人员使用。与类似的机器学习方法不同,CAMEO 算法不是对大量数据进行机器学习和预测,而是通过关注晶体材料的成分、结构和性质之间的关系,追踪材料相应功能的结构来源,引导系统发现有用的新化合物。
CAMEO 的一个好处是最大限度地降低了成本,因为在同步加速器设施中进行实验是需要花费时间和金钱的。研究人员估计,使用 CAMEO 可以将实验数量减少十分之一,相应地可以将实验时间缩短十倍。由于人工智能正在运行测量数据、收集数据,分析数据的过程,这也大大降低了研究人员进行实验所需的知识量,他们只需关注正在运行的 AI 系统。
CAMEO 的另一个好处是为科学家提供了远程工作的能力。这可能意味着,如果科学家们可以依靠人工智能在实验室进行实验,更加安全地远程从事传染性疾病或病毒的研究。研究人员表示,他们将继续改进这一 AI 算法,并尝试使该算法可以解决更复杂的问题。