清源 CPM(Chinese Pretrained Models)是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文为核心的大规模预训练模型。首期开源内容包括预训练中文语言模型和预训练知识表示模型,可广泛应用于中文自然语言理解、生成任务以及知识计算应用,所有模型免费向学术界和产业界开放下载,供研究使用。
语言模型是指对自然语言文本进行概率建模的模型,它不仅可以估计任意一个给定文本序列的概率,也可以用来预测文本序列中某个位置上词的出现概率,是自然语言处理中最基本的问题。2018年以来,预训练语言模型 (Pretrained Langauge Model, PLM) 的研究风起云涌。
与此前有监督学习范式不同的是,预训练语言模型能够充分利用大规模的无标注数据学习通用的语言模型,然后再使用下游任务的少量有标注数据进行模型微调。与直接训练具体任务模型相比,在预训练语言模型基础上微调得到的模型在自然语言处理各大任务上均取得了显著的性能提升。
北京智源人工智能研究院(BAAI)官方公众号。智源研究院聚焦原始创新和核心技术,建立自由探索与目标导向结合的科研体制。
支持科学家勇闯“无人区”,挑战最基础的问题和最关键的难题,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破。在 GPU 多机多卡并行算力和海量无标注文本数据的双重支持下,预训练模型实现了参数规模与性能齐飞的局面,取得了人工智能和深度学习领域的革命性突破。国际著名互联网企业和研究机构互相竞争,将模型规模和性能不断推向新的高度。
BERT之后,短短两年时间,最新发布的 GPT-3 已经达到 1750 亿参数规模、上万块 GPU 的惊人训练规模。在人工智能与深度学习领域围绕超大规模预训练模型展开的“军备竞赛”日益白热化,成为对海量数据、并行计算、模型学习能力的全方位考验。
在这一态势下,亟需建立以中文为核心的超大规模预训练模型。
为此,北京智源人工智能研究院和清华大学研究团队合作开展大规模预训练模型,并发布清源 CPM (Chinese Pretrained Models) 研究计划,旨在推动中文自然语言处理的研究与应用。清源 CPM 计划将依托智源研究院新建的人工智能算力平台,建立以中文为核心的超大规模预训练模型,进行基于超大规模预训练语言模型的少次学习能力以及多任务迁移能力研究,探索更具通用能力的语言深度理解技术。
2020 年 11 月中旬,CPM 开放第一阶段的 26 亿参数规模的中文语言模型 (CPM-LM) 和 217 亿参数规模的结构化知识表示模型 (CPM-KM) 下载,以及相应的系统演示。关于预训练模型的大量实验表明,更大的模型参数和更多的预训练数据,通常能够带来更好的下游任务效果,这类模型被证明在各种少样本学习 NLP 任务中十分有效。
传统预训练模型往往需要经过有监督训练数据微调 (Fine-tuning),才能解决各种自然语言处理任务。而第一版 CPM 中文语言模型与 GPT-3 等预训练模型类似,仅需要通过少次、单次学习甚至零次学习,就能完成不同自然语言处理任务,具备一定的常识和认知的泛化能力。
清源 CPM 使用新闻、百科、对话、网页、故事等不同类型中文语料数据进行预训练。
在多个公开的中文数据集上的实验表明,清源 CPM 在少样本或无样本的情况下都能够达到较好的效果。清源 CPM 计划由北京智源人工智能研究院 (简称“智源研究院”) 和清华大学研究团队合作开展。智源研究院是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府于 2018 年 11 月推动成立的新型研发机构。
智源研究院通过设立“智源学者计划”,在多个重大研究方向重点支持人工智能科学家挑战人工智能最基础的问题和最关键的难题。“自然语言处理”是智源研究院重点支持的重大研究方向之一。
清源 CPM 计划将积极配备算力、数据和人力,注重开展原创研究,尽早实现与国际顶尖机构在超大规模预训练模型技术方面并跑,提升中文自然语言的深度理解和生成能力。
在此基础上,清源 CPM 计划探索超大规模预训练模型学习机制与人脑学习机制之间的联系与区别,支持认知神经科学、心理学和语言学等跨学科交叉研究,从数据驱动深度学习无法回避的可解释性差、鲁棒性差、容易受到攻击的瓶颈入手,以离散符号表示的知识指导与数据驱动的神经网络有机融合、人脑认知机制启发等原始创新为突破口,建立下一代人工智能的技术体系。