唐杰:悟道的雄心,何止是万亿参数模型

作者: 青暮

来源: AI科技评论

发布日期: 2021-04-04

智源研究院发布了我国首个超大规模智能模型系统“悟道1.0”,由清华大学唐杰教授领衔,旨在解决智能是否仅靠大数据、大模型就能实现的问题。该模型包括面向中文、多模态、认知、蛋白质预测的四个大规模预训练模型,分别取名为“文源”、“文澜”、“文汇”、“文溯”。此外,悟道还研发了万亿参数模型训练的关键技术FastMoE,并建设了全球最大中文语料数据库WuDaoCorpora。唐杰教授表示,悟道不仅止于大规模预训练模型,其雄心在于实现认知智能,未来还将有更大模型发布。

智能是否仅靠大数据、大模型就能实现?这是近年来人工智能学术界非常关注的问题,这个问题不仅仅源自GPT-3等千亿参数模型带给我们的刺激,也继承自深度学习一贯以来的“简单粗暴”模式。日前,智源研究院发布了“悟道1.0”,这是我国首个超大规模智能模型系统,为业内带来不小的震撼。

3月20日,北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”,北京大学、清华大学、中国人民大学、中国科学院等高校院所的专家学者以及美团、快手、搜狗等众多AI企业代表参会。

会上,智源研究院发布了超大规模智能模型“悟道1.0”,这一项目由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关。

除了预训练模型,悟道还研发、开源了万亿参数模型训练的关键技术FastMoE,建设并开放了全球最大中文语料数据库WuDaoCorpora。WuDaoCorpora数据集的数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上。

唐杰教授为我们介绍了“悟道”模型的战略布局及阶段性成果。“悟道1.0”先期启动了4个大模型的研发,即面向中文、多模态、认知、蛋白质预测的大规模预训练模型,并分别取名为“文源”、“文澜”、“文汇”、“文溯”。

唐杰教授介绍悟道大模型团队组建“文源”、“文澜”、“文汇”、“文溯”,它们毫无疑问都不是小模型,文源拥有26亿参数,文澜则为10亿,文溯是2.8亿,文汇则达到了113亿。虽然相对于GPT-3的1750亿参数而言,这还是小巫见大巫。但唐杰教授告诉AI科技评论,“我们接下来会有更大的模型。”

这四个模型都有哪些强大之处?我们先来一一探究,并逐步揭开悟道雄心的“真面目”。

“悟道·文源”是“以中文为核心的超大规模预训练语言模型”,目标是构建完成全球规模最大的以中文为核心的预训练语言模型,该项目由清华大学计算机系副教授、智源青年科学家刘知远主导开发。文源此前已经在GitHub开源,获得很高关注度。

目前,文源模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3齐平,达到现有中文生成模型的领先效果。

“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题。目前,文澜模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。该模型在中文公开多模态测试集AIC-ICC的图像生成描述任务中,得分比冠军队高出5%;在图文互检任务中,得分比目前最流行的UNITER模型高出20%。

“悟道·文汇”为“面向认知的超大规模新型预训练模型”,致力于从认知的角度研究通用人工智能中一系列更本质问题。目前,文汇模型的参数规模达113亿,在多项任务中文汇的表现已经接近突破图灵测试,通过简单微调就已经实现AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理。

“悟道·文溯”是“超大规模蛋白质序列预测预训练模型”,最终目标是以基因领域认知图谱为指导,研发出10亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型。目前,文溯已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。

悟道于2020年9月开始布局,10月正式启动,在将近半年的时间内就取得了如此令人瞩目的成果。那么“悟道”的目的仅止于大规模预训练模型吗?其实在介绍文汇的时候,我们已经看到了答案的一角,且让我们继续讨论认知图谱。

唐杰教授曾经讨论过人工智能的三个时代:符号智能——感知智能——认知智能。他认为,要迈向认知智能,首先还是得有足够强大的感知模型,此即悟道当前布局的大规模预训练模型。

在发布会当天的圆桌讨论中,关于预训练模型是不是越大越好这个话题,众学者都发表了自己的观点。学者们一致认为,对于当下而言,模型确实是越大越好,因为目前还处于感知AI阶段,大多数任务设置都比较初级。刘知远副教授提出,随着模型的增大,我们也可能迎来质变,实现类似于牛顿力学给物理学带来的变革,并在未来以新的起点学习大模型,从而实现螺旋式发展。

唐杰教授补充道:“目前随着预训练模型的增大,边际效用还在不断增加。未来会发展成什么样还不好说,有可能边际效用会变得很小甚至消失,到时我们可能得寻求新的方向,也有可能会出现奇点,认知能力自然而然地出现。无论如何,悟道当前的路线都是有意义的,给我们带来了很多模型创新。”

这意味着,在从感知阶段迈向认知阶段的过程中,我们还会面对很多不确定性的考验,可能是惊喜,可能是失望,但这条路目前还得一路黑地走下去。唐杰教授告诉AI科技评论,悟道在六月份还会有重大发布。到时又会给我们带来什么惊喜呢?我们拭目以待。

UUID: c2a5e6d9-500c-4168-9a8e-cd12586253f5

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-04-04_唐杰:悟道的雄心,何止是万亿参数模型.txt

是否为广告: 否

处理费用: 0.0108 元