唐杰：悟道的雄心，何止是万亿参数模型

智能是否仅靠大数据、大模型就能实现？这是近年来人工智能学术界非常关注的问题，这个问题不仅仅源自GPT-3等千亿参数模型带给我们的刺激，也继承自深度学习一贯以来的“简单粗暴”模式。日前，智源研究院发布了“悟道1.0”，这是我国首个超大规模智能模型系统，为业内带来不小的震撼。

3月20日，北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”，北京大学、清华大学、中国人民大学、中国科学院等高校院所的专家学者以及美团、快手、搜狗等众多AI企业代表参会。

会上，智源研究院发布了超大规模智能模型“悟道1.0”，这一项目由智源研究院学术副院长、清华大学唐杰教授领衔，带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关。

除了预训练模型，悟道还研发、开源了万亿参数模型训练的关键技术FastMoE，建设并开放了全球最大中文语料数据库WuDaoCorpora。WuDaoCorpora数据集的数据规模达2TB，超出之前全球最大的中文语料库CLUECorpus2020十倍以上。

唐杰教授为我们介绍了“悟道”模型的战略布局及阶段性成果。“悟道1.0”先期启动了4个大模型的研发，即面向中文、多模态、认知、蛋白质预测的大规模预训练模型，并分别取名为“文源”、“文澜”、“文汇”、“文溯”。

唐杰教授介绍悟道大模型团队组建“文源”、“文澜”、“文汇”、“文溯”，它们毫无疑问都不是小模型，文源拥有26亿参数，文澜则为10亿，文溯是2.8亿，文汇则达到了113亿。虽然相对于GPT-3的1750亿参数而言，这还是小巫见大巫。但唐杰教授告诉AI科技评论，“我们接下来会有更大的模型。”

这四个模型都有哪些强大之处？我们先来一一探究，并逐步揭开悟道雄心的“真面目”。

“悟道·文源”是“以中文为核心的超大规模预训练语言模型”，目标是构建完成全球规模最大的以中文为核心的预训练语言模型，该项目由清华大学计算机系副教授、智源青年科学家刘知远主导开发。文源此前已经在GitHub开源，获得很高关注度。

目前，文源模型参数量达26亿，具有识记、理解、检索、数值计算、多语言等多种能力，并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务，技术能力已与GPT-3齐平，达到现有中文生成模型的领先效果。

“悟道·文澜”是“超大规模多模态预训练模型”，目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题。目前，文澜模型参数量达10亿，基于从公开来源收集到的5000万个图文对上进行训练，是首个公开的中文通用图文多模态预训练模型。该模型在中文公开多模态测试集AIC-ICC的图像生成描述任务中，得分比冠军队高出5%；在图文互检任务中，得分比目前最流行的UNITER模型高出20%。

“悟道·文汇”为“面向认知的超大规模新型预训练模型”，致力于从认知的角度研究通用人工智能中一系列更本质问题。目前，文汇模型的参数规模达113亿，在多项任务中文汇的表现已经接近突破图灵测试，通过简单微调就已经实现AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理。

“悟道·文溯”是“超大规模蛋白质序列预测预训练模型”，最终目标是以基因领域认知图谱为指导，研发出10亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型。目前，文溯已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型，在基因方面完成基于5-10万规模的人外周血免疫细胞（细胞类型25-30种）和1万耐药菌的数据训练，同时搭建训练软件框架并验证其可扩展性。

悟道于2020年9月开始布局，10月正式启动，在将近半年的时间内就取得了如此令人瞩目的成果。那么“悟道”的目的仅止于大规模预训练模型吗？其实在介绍文汇的时候，我们已经看到了答案的一角，且让我们继续讨论认知图谱。

唐杰教授曾经讨论过人工智能的三个时代：符号智能——感知智能——认知智能。他认为，要迈向认知智能，首先还是得有足够强大的感知模型，此即悟道当前布局的大规模预训练模型。

在发布会当天的圆桌讨论中，关于预训练模型是不是越大越好这个话题，众学者都发表了自己的观点。学者们一致认为，对于当下而言，模型确实是越大越好，因为目前还处于感知AI阶段，大多数任务设置都比较初级。刘知远副教授提出，随着模型的增大，我们也可能迎来质变，实现类似于牛顿力学给物理学带来的变革，并在未来以新的起点学习大模型，从而实现螺旋式发展。

唐杰教授补充道：“目前随着预训练模型的增大，边际效用还在不断增加。未来会发展成什么样还不好说，有可能边际效用会变得很小甚至消失，到时我们可能得寻求新的方向，也有可能会出现奇点，认知能力自然而然地出现。无论如何，悟道当前的路线都是有意义的，给我们带来了很多模型创新。”

这意味着，在从感知阶段迈向认知阶段的过程中，我们还会面对很多不确定性的考验，可能是惊喜，可能是失望，但这条路目前还得一路黑地走下去。唐杰教授告诉AI科技评论，悟道在六月份还会有重大发布。到时又会给我们带来什么惊喜呢？我们拭目以待。