全球最大规模人工智能巨量模型诞生

在AI“必争之地”，全球最大规模人工智能巨量模型诞生。9月28日，浪潮人工智能研究院发布全球最大人工智能巨量模型——源1.0。这个几乎把近5年中文互联网的浩瀚内容全部读完，在数据量、参数规模与模型精度方面均居全球之最的大模型，将以开源、开放、共享的策略，降低巨量模型研究和应用的门槛，推动AI产业化和产业AI化的进步。

中国工程院院士王恩东认为，人工智能的大模型时代已经到来，利用先进算法，整合大规模数据，汇聚大量算力，训练出巨量人工智能模型是未来的发展方向。前不久，浪潮招募近百人参与了一场“类图灵测试”，将源1.0大模型生成的对话、新闻、诗歌、对联，小说续写5类作品混杂在文学大师的作品中，由测试者判断该作品是“人为”还是“机为”。

最后的测试结果“令人振奋”，在源1.0的挑战测试中，人们能够准确分辨人与“源1.0”作品差别的总体成功率低于50%。

在5类测试作品中，新闻类作品误判率最高，达到57.88%，即大多数人很难分别作品到底是人类作品还是机器创作。即使误判率最低的诗歌类作品（37.69%），如文章开始提到那两句诗，也字顺意达，不仔细推敲，确实难以想到是机器创作。图灵测试是判断机器是否具有智能的经典方法。通常认为，进行多次测试后，如果人工智能让平均每个参与者做出超过30%的误判，那么这台机器就通过了测试，并被认为具有人类智能。

2020年6月，OpenAI发布了参数量高达1750亿的大模型GPT-3，该模型一推出就引起人工智能学界和业界的轰动。浪潮信息副总裁刘军同样认为，生命从简单进化到复杂，这种智能水平本身就是一种模型。如果把模型比作元宇宙中的生命，大模型的这种综合系统能力，可能会决定未来数字世界和智能世界里的智能水平。

源1.0几乎把近5年整个中文互联网的浩瀚内容全部读完，在收集并清洗数据后，最终获得5TB高质量数据，成为迄今业界最大的高质量中文数据集。在语言智能方面，源1.0获得中文语言理解评测基准CLUE榜单零样本学习和小样本学习两类总榜冠军，获得小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务冠军。

对标OpenAI的GPT-3，源1.0参数规模为2457亿，训练采用的中文数据集达5TB。相比GPT-3模型1750亿参数量和570GB训练数据集，源1.0参数规模领先40%，训练数据集规模领先近10倍。

人工智能模型目前存在诸多挑战。一是语言模型的通用性不高，一个模型专用于特定领域，换个地方就效果欠佳。而训练超大规模模型能一定程度上解决通用性问题，可以被应用于翻译、问答、文本生成等，涵盖自然语言理解的所有领域，可被广泛地应用于各种AI场景。二是模型开发成本高、周期长。而经过预训练的大模型可以让研究机构和企业“不必从0做起，可以在大模型的基础上，从60、或者从90开始做到100”。

发展大模型曾被称作“富人的烧钱游戏”。OpenAI为开发GPT-3花费了10亿美元，研发团队用了1万个GPU，训练了1个月。国内某课题组为进行一项较复杂的计算，购置了数台服务器。运行起来后，该团队负责人坦言，“光电费每天得1万元”。因为在算法、软硬件适配方面做了大量优化，源1.0比GPT-3用的CPU更少，训练时间更短。这让源1.0一定程度上摘下了“富人烧钱游戏”的帽子。

学界普遍认为，大模型犹如“望远镜”“显微镜”一样，当人们没有这些设备时，不知道瀚瀚宇宙和原子分子等微观世界到底有什么，是什么样。有了大模型，人类或许就能发现一番崭新的天地。因此，不管实力雄厚的头部企业、研究机构，还是课题小组、单个研究人员，都期望能尽快用上大模型。业内人士认为，别说千亿量级的模型，百亿量级的模型对研究机构来说都难实现。

而且，业界和学术界非常希望大模型能开放共享，开放模型可以让大家一起来开发应用，优化和构建共同生态。

“开放、开源、共享，是我们做这个事情的目的。”刘军说，“我们不希望这么一个强大的武器有很高的门槛，成为少数人的专利，我们希望把它变成一个普惠性的能力建设。”刘军认为，巨量数据、巨量算法和巨量算力正在成为迈向通用人工智能的重要路径。巨量模型最后会变成创新的源头，变成不同应用场景里快速产生模型的源头。

“浪潮源1.0大模型只是一个开始，它只是提供一片广阔的肥沃土壤。浪潮未来将定向开放大模型API，服务于元脑生态社

区内所有开发者，供全球的开发人员在我们的平台上开发应用于各行各业的应用程序。”刘军说，“源1.0将面向学术机构和产业界用户开源，降低巨量模型研究和应用的门槛，推动AI产业化和产业AI化的进步，为国家在人工智能研究创新和产业发展作出贡献。”

大模型时代已经到来，如果头部企业能站在行业发展的高处，以开源、开放、共享的理念来协同发展大模型，也许一场高损耗的“军备竞赛”会消弭于无形，一座通向智能世界的“通天塔”或许就能建成。