跨越鸿沟！全球最大AI巨量模型正式开源

跨越鸿沟！全球最大AI巨量模型正式开源。10月26日，在“2021人工智能计算大会（AICC 2021）”上，浪潮人工智能研究院宣布：正式开放源1.0的API（应用程序编程接口），开放高质量中文数据集，开源该大模型的训练、推理及应用代码，并和合作伙伴一起，推动面向多元AI芯片的模型移植开发。智慧时代即将到来。

在2021人工智能计算大会上，中国工程院院士王恩东说，算力已经成为智慧时代的决定性力量，面对指数级增长的战略需求，计算产业正面临多元化、巨量化、生态离散化交织的趋势与挑战。大模型已经成为全球人工智能竞争的战略制高点，成为应对新挑战的必然选择。浪潮人工智能研究院首席研究员吴韶华介绍说，源1.0有2457亿的参数，训练部署一个完整的模型副本需要304块GPU。

为训练源1.0，研究团队清洗了近860TB的互联网数据，开发出5TB的业界最大规模高质量中文数据集。精度方面，源1.0在中文权威的自然语言处理任务CLUE零样本学习和小样本学习榜单上均排名第一。同时，它也在中文问答任务，如WebQA上有大幅度的精度提升，成为当前领先的中文自然语言处理模型。进入大模型时代，我们很多用户和合作伙伴已无法自己去完成这样一个大模型的研发、训练和交互工作了。

从算力行业发展来说，我们一定要帮助用户和合作伙伴，推动人工智能向生态化、产业化发展。在人工智能领域，免费、共享、开放和开源是几个不同的概念。即使同为开源，开到什么程度，到代码、数据集、API还是指令集的区别也很大。源1.0已经做出来了，将来还会推出源2.0、3.0……我们将其开源，下一步我们会向多模态方向发展，进一步优化算法、提高算力、提升参数数量。

希望源2.0将来是和合作伙伴一起推出的，这样可以更贴近应用场景、更快速实现落地，同时兼顾对前沿技术的探索。目前，大模型落地仍有诸多困难。一方面要考虑技术如何走出实验室，另一方面真正有数据、有需求的行业可能又不具备算力、数据的承载能力。此外，应用场景的能源、人才是否适配都是难题，需要从国家、产业、企业和科研机构多机构、多角度协同推进。

为更好服务新型基础设施建设，提供智慧城市解决方案与产品服务，浪潮首先提出自己的智能化，从智能工厂、智能客服体系来提升服务水平。与此同时，通过开源开放计划，浪潮和合作伙伴一起研发，碰撞出火花，把一项实验室技术打造成能普惠产业的算法算力平台，促进人工智能生态化、产业化发展。如果我们放宽视野，从更长的时间维度看，现在的大模型也许10年后就不值一提了。

未来大模型的发展，要从应用场景和用户需求出发，进一步优化算法、提高算力、增加数据量。浪潮研发源1.0的初衷有两个：一是探索人工智能的前沿方向，推动智能算法创新；二是建设算力基础设施，并落地应用、推动产业落地。由此可见，这个开放共享的“源”不仅是个大模型，也是创新之源、智慧之源。