百度王海峰：文心一言完全自主研发，更懂中国文化

当下，大语言模型热度空前，诸如ChatGPT、文心一言等已能够与人对话互动、回答问题、协助创作，逐渐应用于人们的工作和生活，引发社会广泛关注。4月16日，百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰做客CCTV-2《中国经济大讲堂》，阐释文心一言大语言模型的产品能力、技术原理和产业价值。他说，文心一言作为百度完全自主研发的大语言模型，更懂中文、更懂中国文化、更懂中国的使用场景。

王海峰介绍称，人工智能时代，IT技术栈可分为“芯片层、框架层、模型层和应用层”，百度是全球为数不多有全栈布局的人工智能公司。从昆仑芯片、飞桨深度学习平台、文心大模型到应用，百度在技术栈的每一层都有领先的关键自研技术，能实现层与层反馈、端到端优化，大幅提升效率。王海峰强调，文心一言是百度完全自主研发的大语言模型。

百度早在2019年就发布文心大模型ERNIE 1.0，经过近4年研发和迭代，文心大模型已经形成了产业级知识增强大模型技术体系，包括自然语言处理、视觉、跨模态、生物计算、行业大模型，以及支撑大模型应用的工具平台，蕴含了大量百度自主创新、并且在大规模产业应用中得到验证的技术。

王海峰以“读书破万卷，下笔如有神”为例，解读大语言模型从海量数据中学习——相当于AI读了万亿卷书籍，吸收和理解了万亿知识，并在此基础上，按照用户的需求去生成文案、回答问题、完成总结分析。

关于“文心一言”名字由来，王海峰做了具体阐释：“文”是语言文字，“心”是用心理解，“文心”指致力于理解和运用语言文字的自然语言理解模型，同时也呼应了《文心雕龙》，寓意用雕缕龙纹一样精细的功夫去研究语言文字的内涵和魅力；“一言”既有“一言为定、一言九鼎”的寓意，也有对人机之间“你一言我一语”流畅沟通的殷切期盼。文心“一言”既出，即可“一生二、二生三、三生万言”。

节目现场，王海峰还展示了文心一言的文学创作、商业文案创作、推理计算、中文理解和多模态生成等能力。文心一言是文心大模型家族的新成员，在文心知识增强大模型ERNIE及对话大模型PLATO的基础上研发，基于飞桨深度学习平台训练和部署，其关键技术包括，有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。对于百度已有技术优势的再创新，王海峰也做了进一步解读。

知识是人类认识和改造世界的智慧结晶。在知识增强方面，百度构建了5500亿事实的知识图谱。文心一言基于庞大的知识图谱来做知识增强，从海量数据和大规模知识中融合学习，还可以直接调用知识图谱做知识推理，自动构建提示，高效满足用户需求。

在检索增强方面，百度拥有世界上最大的中文搜索引擎，百度搜索已经发展到基于语义理解和匹配的新一代搜索架构，深入理解用户需求和网页内容，进行语义匹配，得到更精准的搜索结果，进而为大模型提供准确率高、时效性强的参考信息，更好地满足用户需求。在对话增强方面，基于对话技术和应用积累，文心一言具备记忆机制、上下文理解和对话规划能力，实现更好的对话连贯性、合理性和逻辑性。

百度深耕对话技术多年，取得了国际领先的技术成果，荣获中国专利金奖、吴文俊人工智能科技进步特等奖等，为文心一言的成功研发奠定了基础。大语言模型的飞速发展已经引起社会热议，对于工作岗位替代、教育模式变革、人工智能安全等问题，王海峰也给出了解答。他表示，文心一言这样的人工智能技术，本质上是提升生产力的工具，可以替代人类完成一些工作，但同时也会创造更多工作机会，使人类可以去做更具创造力的工作。

王海峰提到，大模型具有效果好、泛化性强、研发流程标准化的特点，正在成为人工智能技术及应用的新基座。但与此同时，大模型研发门槛高、难度大，依赖算法、算力和数据综合支撑，产业化面临挑战：模型体积大，训练难度高；算力规模大，性能要求高；数据规模大，数据质量参差不齐。如何实现大模型产业化？

王海峰表示，类似芯片代工厂的模式——具有算法、算力和数据综合优势的企业，可以将模型生产的复杂过程封装起来，通过低门槛、高效率的生产平台，为千行百业提供大模型服务。未来，文心一言这类大语言模型会成为一个通用的赋能平台。金融、能源、媒体、政务等各行各业，都可以基于文心一言实现智能化变革、提高效率，创造巨大的商业价值。

他期待社会各界积极拥抱新技术，共同努力，为实现高水平科技自立自强、为经济高质量增长带来更多动能。