跨越鸿沟!全球最大AI巨量模型正式开源

作者: 张双虎

来源: 中国科学报

发布日期: 2021-10-29 08:29:29

全球最大AI巨量模型源1.0正式开源,标志着人工智能领域的一次重大突破。该模型具有2457亿参数,训练数据集规模领先近10倍,旨在推动AI技术的发展和应用。源1.0的开源将促进人工智能生态化、产业化发展,为科研机构和企业提供强大的算法算力平台。

跨越鸿沟!全球最大AI巨量模型正式开源。10月26日,在“2021人工智能计算大会(AICC 2021)”上,浪潮人工智能研究院宣布:正式开放源1.0的API(应用程序编程接口),开放高质量中文数据集,开源该大模型的训练、推理及应用代码,并和合作伙伴一起,推动面向多元AI芯片的模型移植开发。智慧时代即将到来。

在2021人工智能计算大会上,中国工程院院士王恩东说,算力已经成为智慧时代的决定性力量,面对指数级增长的战略需求,计算产业正面临多元化、巨量化、生态离散化交织的趋势与挑战。大模型已经成为全球人工智能竞争的战略制高点,成为应对新挑战的必然选择。浪潮人工智能研究院首席研究员吴韶华介绍说,源1.0有2457亿的参数,训练部署一个完整的模型副本需要304块GPU。

为训练源1.0,研究团队清洗了近860TB的互联网数据,开发出5TB的业界最大规模高质量中文数据集。精度方面,源1.0在中文权威的自然语言处理任务CLUE零样本学习和小样本学习榜单上均排名第一。同时,它也在中文问答任务,如WebQA上有大幅度的精度提升,成为当前领先的中文自然语言处理模型。进入大模型时代,我们很多用户和合作伙伴已无法自己去完成这样一个大模型的研发、训练和交互工作了。

从算力行业发展来说,我们一定要帮助用户和合作伙伴,推动人工智能向生态化、产业化发展。在人工智能领域,免费、共享、开放和开源是几个不同的概念。即使同为开源,开到什么程度,到代码、数据集、API还是指令集的区别也很大。源1.0已经做出来了,将来还会推出源2.0、3.0……我们将其开源,下一步我们会向多模态方向发展,进一步优化算法、提高算力、提升参数数量。

希望源2.0将来是和合作伙伴一起推出的,这样可以更贴近应用场景、更快速实现落地,同时兼顾对前沿技术的探索。目前,大模型落地仍有诸多困难。一方面要考虑技术如何走出实验室,另一方面真正有数据、有需求的行业可能又不具备算力、数据的承载能力。此外,应用场景的能源、人才是否适配都是难题,需要从国家、产业、企业和科研机构多机构、多角度协同推进。

为更好服务新型基础设施建设,提供智慧城市解决方案与产品服务,浪潮首先提出自己的智能化,从智能工厂、智能客服体系来提升服务水平。与此同时,通过开源开放计划,浪潮和合作伙伴一起研发,碰撞出火花,把一项实验室技术打造成能普惠产业的算法算力平台,促进人工智能生态化、产业化发展。如果我们放宽视野,从更长的时间维度看,现在的大模型也许10年后就不值一提了。

未来大模型的发展,要从应用场景和用户需求出发,进一步优化算法、提高算力、增加数据量。浪潮研发源1.0的初衷有两个:一是探索人工智能的前沿方向,推动智能算法创新;二是建设算力基础设施,并落地应用、推动产业落地。由此可见,这个开放共享的“源”不仅是个大模型,也是创新之源、智慧之源。

UUID: 1fea57f8-bb21-4e73-891a-3446b8cefd9d

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中国科学报公众号-pdf2txt/2021-2022/中国科学报_2021-10-29_跨越鸿沟!全球最大AI巨量模型正式开源.txt

是否为广告: 否

处理费用: 0.0046 元