材料合成路径预测是物质科学领域的重要课题。1990年诺贝尔化学奖授予了美国有机化学家Elias James Corey教授,表彰他开发了计算机辅助有机合成的理论和方法,将人类300多条经验写进计算机编码,成为制药领域的重要工具软件。无机材料受限于合成路径的复杂度和缺乏数据集等因素,尚未有清晰的化学合成路径预测机制。人工智能(AI)大模型的崛起是近几年人工智能领域的一项重大突破。
人工智能大模型是指具有大规模参数数量的人工智能模型。这些模型通常使用深度学习算法,并且由数百万到数千亿个参数组成。这些参数用于表示模型在学习任务中的知识和能力。人工智能大模型的目标是实现强大的图像识别、自然语言处理、语音识别等人工智能任务。
一些著名的人工智能大模型包括BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)和BERT,这些模型在自然语言处理领域取得了显著的成果。
近期,中国科学院物理研究所/北京凝聚态物理国家研究中心SF10组和中国科学院计算机网络信息中心共同合作,将AI大模型应用于材料科学领域,将数万个化学合成路径数据投喂给大语言模型LLAMA2-7b,从而获得了MatChat模型,可用来预测无机材料的合成路径。该模型可根据所询问的结构进行逻辑推理,并输出相应的制备工艺和配方。
目前,该模型已部署上线,并向所有材料科研人员开放使用,为材料研究和创新带来了新启发和新思路。这项工作展示了无机材料合成路径预测领域的“莱特兄弟一分钟飞翔”,受限于数据集的数量和质量,模型预测精度尚受到一定限制。未来合作团队计划将更多的文献数据、Atomly.net数据库等诸多高质量数据集用于模型训练,让无机材料合成路径预测的大飞机飞的更高更远。
这一成果近期以“MatChat: A Large Language Model and Application Service Platform for Materials Science”为题,在Chinese Physics B最新开辟的Computational Program for Physics栏目发表。由物理所孟胜研究员、中国科学院计算机网络信息中心王彦棡研究员领衔。
刘淼研究员、王宗国副研究员为本文的通讯作者,谢帆恺为本文的第一作者。该工作得到中国科学院网信专项(CAS-WX2023SF-0101)应用示范项目的支持。