智能是否仅靠大数据、大模型就能实现?这是近年来人工智能学术界非常关注的问题,这个问题不仅仅源自GPT-3等千亿参数模型带给我们的刺激,也继承自深度学习一贯以来的“简单粗暴”模式。日前,智源研究院发布了“悟道1.0”,这是我国首个超大规模智能模型系统,为业内带来不小的震撼。
3月20日,北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”,北京大学、清华大学、中国人民大学、中国科学院等高校院所的专家学者以及美团、快手、搜狗等众多AI企业代表参会。
会上,智源研究院发布了超大规模智能模型“悟道1.0”,这一项目由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关。
除了预训练模型,悟道还研发、开源了万亿参数模型训练的关键技术FastMoE,建设并开放了全球最大中文语料数据库WuDaoCorpora。WuDaoCorpora数据集的数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上。
唐杰教授为我们介绍了“悟道”模型的战略布局及阶段性成果。“悟道1.0”先期启动了4个大模型的研发,即面向中文、多模态、认知、蛋白质预测的大规模预训练模型,并分别取名为“文源”、“文澜”、“文汇”、“文溯”。
唐杰教授介绍悟道大模型团队组建“文源”、“文澜”、“文汇”、“文溯”,它们毫无疑问都不是小模型,文源拥有26亿参数,文澜则为10亿,文溯是2.8亿,文汇则达到了113亿。虽然相对于GPT-3的1750亿参数而言,这还是小巫见大巫。但唐杰教授告诉AI科技评论,“我们接下来会有更大的模型。”
这四个模型都有哪些强大之处?我们先来一一探究,并逐步揭开悟道雄心的“真面目”。
“悟道·文源”是“以中文为核心的超大规模预训练语言模型”,目标是构建完成全球规模最大的以中文为核心的预训练语言模型,该项目由清华大学计算机系副教授、智源青年科学家刘知远主导开发。文源此前已经在GitHub开源,获得很高关注度。
目前,文源模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3齐平,达到现有中文生成模型的领先效果。
“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题。目前,文澜模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。该模型在中文公开多模态测试集AIC-ICC的图像生成描述任务中,得分比冠军队高出5%;在图文互检任务中,得分比目前最流行的UNITER模型高出20%。
“悟道·文汇”为“面向认知的超大规模新型预训练模型”,致力于从认知的角度研究通用人工智能中一系列更本质问题。目前,文汇模型的参数规模达113亿,在多项任务中文汇的表现已经接近突破图灵测试,通过简单微调就已经实现AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理。
“悟道·文溯”是“超大规模蛋白质序列预测预训练模型”,最终目标是以基因领域认知图谱为指导,研发出10亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型。目前,文溯已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。
悟道于2020年9月开始布局,10月正式启动,在将近半年的时间内就取得了如此令人瞩目的成果。那么“悟道”的目的仅止于大规模预训练模型吗?其实在介绍文汇的时候,我们已经看到了答案的一角,且让我们继续讨论认知图谱。
唐杰教授曾经讨论过人工智能的三个时代:符号智能——感知智能——认知智能。他认为,要迈向认知智能,首先还是得有足够强大的感知模型,此即悟道当前布局的大规模预训练模型。
在发布会当天的圆桌讨论中,关于预训练模型是不是越大越好这个话题,众学者都发表了自己的观点。学者们一致认为,对于当下而言,模型确实是越大越好,因为目前还处于感知AI阶段,大多数任务设置都比较初级。刘知远副教授提出,随着模型的增大,我们也可能迎来质变,实现类似于牛顿力学给物理学带来的变革,并在未来以新的起点学习大模型,从而实现螺旋式发展。
唐杰教授补充道:“目前随着预训练模型的增大,边际效用还在不断增加。未来会发展成什么样还不好说,有可能边际效用会变得很小甚至消失,到时我们可能得寻求新的方向,也有可能会出现奇点,认知能力自然而然地出现。无论如何,悟道当前的路线都是有意义的,给我们带来了很多模型创新。”
这意味着,在从感知阶段迈向认知阶段的过程中,我们还会面对很多不确定性的考验,可能是惊喜,可能是失望,但这条路目前还得一路黑地走下去。唐杰教授告诉AI科技评论,悟道在六月份还会有重大发布。到时又会给我们带来什么惊喜呢?我们拭目以待。