6月20日消息,据内部人士透露,百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上,百度创始人、董事长兼CEO李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来3.5版本,距今时隔不到一个月。
最新版本文心大模型达到了怎样的实力?在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,文心大模型3.5(ERNIE 3.5)在多个测试集的得分已超过ChatGPT。
为验证主流大模型的各项综合能力,评测在AGIEval、C-Eval和MMLU三个权威评测基准上进行综合评估。AGIEval评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。C-Eval评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。
MMLU是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试,用于衡量模型的英文跨学科专业能力。
评测结果:文心大模型3.5中文能力超GPT-4,综合能力超ChatGPT。
在中文AGIEval评测中,文心大模型3.5得分64.37,远超ChatGLM-6B、LLaMa-7B、LLaMa-13B、LLaMa-65B,同时还超过了ChatGPT的40.27分和GPT-4的56.96分,位居第一。
在中文C-Eval评测中,文心大模型3.5测出71.93的最高得分,不仅高于ChatGPT的51.70分,还略高于GPT-4的68.57分,领先于LLaMa-65B、LLaMa-7B、ChatGLM-6B的得分。
尽管市面上有多个大模型横空出世,但大模型研发门槛高、难度大、投入高,依赖算力、数据等综合支撑的现实不容忽视。
在推动大模型产业化的路上,中国企业如何在大模型发展过程中发挥所长优势,加速缩小差距?中国工程院院士邬贺铨曾在接受采访时表示,中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势。以百度文心大模型3.5为例,与3.0版本相比,通过各项算法和数据的优化,尤其是百度首创的知识增强和检索增强技术的优化,新版本文心大模型在各项能力上均有明显提升。