缘起、两难与瞻望,关于GLM-130B模型的故事

来源: 智谱AI公众号

发布日期: 2022-09-06 18:05:50

本文讲述了清华大学知识工程实验室(KEG)与智谱AI共同研发的GLM-130B大模型的研发历程,包括模型的特点、研发过程中的困难与决策,以及未来的展望。

今年8月,清华大学知识工程实验室(KEG)与智谱AI共同研发的大规模中英文预训练语言模型GLM-130B正式发布,并以开源开放的形式供研究机构或个人免费下载使用,收获了国内外研究者及业界的广泛关注。今天,智谱AI公众号发布了一篇文章,讲述了他们与GLM-130B大模型的故事。首先,我们想再向大家简单介绍一下GLM-130B大模型。它是一个有着1300亿参数的稠密模型,支持中英文两种语言。

在预训练模型架构算法上,沿用了KEG实验室在2021年提出的GLM模型。由于采用了以单个transformer编码器学习单向和双向注意力等机制,模型在多个任务上表现出了不俗的效果,在零样本性能方面表现优异。GLM-130B在设计时也充分考虑了模型的易用性,可以在一台A100(40G*8)或V100(32G*8)服务器上进行推理。

此外,模型对多个平台进行了适配,支持在NVIDIA、海光DCU、昇腾910和申威处理器上进行训练与推理。2021年12月起,清华KEG实验室就开始了关于训练千亿参数的稠密模型的讨论。随着工作的推进,一直没有找到充足、稳定的计算资源用于模型训练。今年4月,在了解到KEG实验室的千亿参数GLM模型训练缺少计算资源的情况后,智谱AI决定为这一项目免费提供模型训练所需的算力支持。

经过多方的协调与努力,公司最终租用了近百台A100服务器,为KEG实验室提供了模型训练所需的算力,并致力将这一研究开源、开放,让研究界和产业界都能超低成本理解大模型、超低成本使用大模型。如此规模的算力、以月为单位的租用,其成本对于创业公司来说不是小数目,但公司还是毅然决定为项目提供支持。

做出这样的决定,是因为智谱AI作为一家以“让机器像人一样思考”为愿景的公司,一直坚信大模型将为人工智能技术的发展进步注入强大的动力,也十分认可KEG实验室的同学们“让千亿参数级高精度的大模型被更多人使用”的目标。随后的两个月,我们见证了KEG实验室解决了模型训练中的各种问题,看着模型渐渐收敛,直至训练完成。在这期间,智谱AI也开始与KEG实验室讨论GLM-130B模型要如何发布。

KEG实验室希望将模型完全免费开放,让任何人都可以免费下载千亿模型;而公司的商务团队则提出质疑,担心免费开放的做法会让大模型的商业化之路变得更加困难。这使我们陷入了两难境地——我们赞赏KEG实验室将研究成果与所有人共享,让中文世界拥有开放的语言模型的理念,但也理解商务方面的顾虑。

最终,我们说服商务同事接受了开源开放的方案——任何的公司、学校、机构或个人都可以免费下载GLM-130B模型及相关代码,但仅限于学习、研究用途,不得商业使用。我们希望通过这样的方式,能让更多人直接地用上大模型,带动更多人了解和认可大模型。最终,让大模型技术像云计算、大数据一样成为信息化、智能化系统的基础设施,为各行各业赋能。目前,已经有100多个机构或个人申请下载了GLM-130B模型。

GLM-130B的开源代码也在GitHub上迅速获得了几百个星标。智谱AI在大模型研发上的脚步不曾停下。近期,AI院研发团队在模型蒸馏技术上发力,以期帮助大模型更好地在各种应用场景落地。目前也实现了多个模型应用,能回答问题,填空,自动写文章、写摘要,给文章起题目,功能丰富,绝对值得大家到模型应用中心来探秘。而KEG实验室的老师和同学们也在模型量化、MoE方法等方面持续探索。

未来,智谱AI还将有更多不同领域、不同应用场景的大模型发布。愿有一天,大模型技术能够勇立第三代人工智能技术的潮头,融入社会生活的方方面面,惠及每一个人。

UUID: 1fdae28e-483d-4606-88f2-0a2fa7cd7d75

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2022年/学术头条_2022-09-06「转」_分享|缘起、两难与瞻望,关于GLM-130B模型的故事.txt

是否为广告: 否

处理费用: 0.0043 元