遥遥无期还是近在咫尺？长文展望大模型商业化前景

从2018年谷歌提出BERT预训练语言模型至今，作为深度学习领域的集大成者，超大规模预训练模型（简称：“大模型”）仅仅走过了三年的发展历程。大模型技术不仅是学术界重点投入的领域，产业领域也在期待其能够在各个场景加速落地。大模型不仅能够提升应用服务的智能水平，甚至还有望催生新的场景和产业模式。本文主要分析目前大模型适合落地的场景和应用模式，并展望未来的产业发展态势，以期为读者带来一些思考。

超大规模预训练模型是采用超大参数规模（超过亿级别），依赖强大算力，在海量数据上进行预训练的AI模型。预训练后的大模型具有较为通用的能力，可以通过微调，甚至不微调，而在细分任务上超越以往单一领域专用AI模型性能。

目前，在这一领域已诞生大量的模型，主要集中在自然语言处理领域，其中有谷歌提出的BERT、T5等，FaceBook提出的RoBERTa等，OpenAI提出的GPT-3等，参数规模在数十亿到千亿不等。在多模态任务领域，近年来也诞生了一批值得关注的模型，如OpenAI在今年1月提出的DALL·E等。

我国在大模型领域也取得了许多成就，知名模型包括清华大学等提出的ERNIE、百度的ERNIE2.0、阿里提出的PLUG等、华为云等提出的盘古NLP，以及智源研究院研发的悟道1.0、悟道2.0模型。大模型技术目前呈现百花齐放、百家争鸣的发展格局。

研发更大、更通用的模型，对于科研机构和企业都是沉重的负担，例如GPT-3模型的训练成本就超过了1200万美元，OpenAI和微软更是斥巨资打造专用AI超算支撑研发工作。大模型“烧钱”是业界的普遍共识，这也驱动研发机构加快商业变现步伐。而下游场景的企业也急需要能够降低AI研发成本，进一步提升AI能力的强大技术。

大模型不再是机构“秀肌肉”的玩具，而是真正成为智能应用和服务的基础技术，推动产业智能化发展。

当前全球大模型商业落地仍处于早期探索阶段。一方面，研发机构熟悉大模型基本技术，但缺乏有效落地场景，需要与下游场景企业合作建立大模型商业模式；另一方面，绝大多数下游场景的企业没有足够的算力和开发资源定制/微调大模型。这造成了一种基于API而非开源模型的产业格局：大模型是否开源本身并不关键，研发机构只需要开放满足应用需求的API，由企业提供反馈，将模型融入企业本身的业务环节中。

目前大模型领域商业落地较为成功的案例是GPT-3。在OpenAI在公开GPT-3论文后，也同时开放了模型的API申请通道，鼓励研究者、开发者、企业从业者研究“好玩的”GPT-3应用，以此促动大模型的产业场景发展。

在开源社区培养了一批GPT-3的开发和用户人群后，OpenAI对外开放API商业运营计划，让GPT-3成为营收来源，据OpenAI统计，截至今年3月，全球已有300多个APP使用了GPT-3的技术，全球开发者数量上万，模型每天生成45亿个词汇，而且数量还在不断增长。

仅开放商业API或许还不能满足OpenAI的盈利需求，面对微软10亿美元的投资，OpenAI也“投桃报李”，将GPT-3模型优先使用授权打包奉上，微软可以自由微调。在数据分析领域，大模型能够根据数据科学家的需求自动生成分析检索代码，降低了数据分析的技术门槛，使企业业务人员直接进行大型分析和决策。如微软的Microsoft Power App数据分析平台中就集成了GPT-3模型。

目前主要有两种大模型产业落地模式，一是将大模型作为智能系统中的一个组成部分，二是直接基于大模型形成产业体系。集成于已有智能系统中，实现降本增效。企业在获得大模型时，首先考虑的是将模型集成于已有的产品或服务中，通过提升某一个环节的智能能力，实现整体系统的效率提升，降低成本。例如，原本生产体系中需要人力投入的环节，可由大模型代替或辅助。

更重要的是，大模型也可脱离已有的智能产业独立发展。

未来将可能围绕大模型建立独立的产业体系，形成智能能力（简称“智力”）的生产和消费模式。正如智源研究院理事长张宏江所言：“如果将AI比作电力，那么大模型则相当于「发电机」，能将智能在更大的规模和范围普及。”大模型的智能能力在未来将成为一种公共基础资源，像电力或自来水一样随取随用。

每个智能终端、每个APP，每个智能服务平台，都可以像接入电网一样，接入由IT基础设施组成的“智力”网络（俗称“智网”），让智能能力完成日常中方方面面的任务，帮助人类从枯燥重复的工作中解放出来，实现生产力的发展。

基于大模型形成的大规模智能网络和云计算完全不同。云计算尽管也将算力比作随取随用的资源，但目前仍然做不到像电力一样的方便取用。

这是因为云计算本质上需要云和用户进行双向的资源交换，用户需要经过繁琐的数据准备、计算过程定义等过程，将数据和算法转移到云端，再由云端完成任务后传回本地。

而基于大模型的“智网”则不需要用户定义计算过程，只需要准备好数据，大模型强大的能力能够在少量微调（few-shot）甚至不微调（zero-shot）的情况下直接完成用户所需的工作，就像是家用电器只需要电力驱动电机，具体用途则由电器本身的属性定义，实现“动力”和“用途”的隔离。这一智能能力生产和消费的网络，未来或将成为人类社会产业发展的主流模式。

预训练语言模型尽管GPT-3的案例说明，大模型的应用前景非常惊人，但是对于模型适合落地的应用场景和领域，目前产业界并没有定论。对于不同类型的大模型，其产业落地的进程有所区别。对于BERT、GPT-3等预训练语言模型，其在对话、文本改写补全、风格变换、文本生成等任务上具有明显优势，因此适合许多文字相关的场景，如媒体、社交、营销、教育等领域。

此外，大模型普遍采用Transformer技术架构，适合处理各类时序数据，因此也可以扩展到代码补全等场景。

多模态预训练模型多模态模型由于学习了图-文等数据，因此相比语言模型在更复杂场景具有应用优势，特别是需要创意生成的领域，如艺术设计、广告等。例如，DALL·E模型能够根据文本指令，生成对应的图像，产生很多人类想不到的奇思妙想。如果日后模型具有学习视频、音频等数据的能力，其在文化娱乐产业的应用水平将进一步提升。

面向未来产业界更为复杂的智能决策场景，基于多种网络数据预训练，具有决策能力的大模型可能是下一步发展的重点。例如，谷歌在今年的IO大会上公开了MUM（多任务统一模型：Mutitask Unified Model）的发展情况。据谷歌透露，MUM模型能够理解75种语言，并预训练了大量的网页数据，擅长理解和解答复杂的决策问题，并能够从跨语言多模态网页数据中寻找信息。

谷歌展示了MUM模型通过用户英文提问搜索日文信息源，并提供旅行攻略的过程。说明当大模型学习更为丰富的模态数据后，其在处理复杂信息理解和生成任务时会有更强的表现。

大模型能够落地应用的领域，本质上和其预训练的数据模态、数据类型密切相关。

例如面向目前对视觉通用任务处理的需求，“视觉大模型”——即采用Transformer架构，但学习大量的图像和视频数据，让模型产生视觉通用能力的模型应运而生，这是已有的多模态模型还做不到的。考虑到视觉任务在日常生活和产业发展中占据更大的比重，笔者认为，如果视觉大模型能够达到产业落地所需的精度，其落地场景和商业化进程或许会超过语言大模型。

总体而言，大模型落地困难主要在于：一是模型智能能力不足，不足以驱动下游应用服务（家用电器）运作；二是产业模式发展不够成熟，模型和应用服务之间尚未建立成熟的互动机制，即使智能能力接入，下游应用无法将智能能力转换为实际的能力和服务。此外，大模型加剧了伦理、数据隐私安全等方面的矛盾，但相应的监管机制尚不健全。

目前阻碍大模型广泛落地的主要原因包括三个方面因素。技术方面，大模型存在性能、配套服务等方面的不足。大模型的推理性能达不到日常应用的水平，这主要是因为模型不具有常识，无法进行逻辑推理，因此会产生很多语法正确但没有任何意义的句子/图片。这需要模型进一步加强对常识的学习和理解能力，如引入知识图谱等，帮助模型真正“理解”所学所说的内容。

产业方面，目前围绕大模型的产业模式仍处于初步发展阶段。

对于将大模型集成在已有的技术体系中，产业界目前没有明确的定论，采用API、本地部署微调模型、基于模型公开架构进行自研等模式均具有一定的优势，但投入也相应增加，企业尚且对大模型技术还不够了解，更不用说确定一种符合自身产业发展的模式。此外，目前企业普遍缺乏领域定义明确，积累较好的数据集。许多场景或限定不够明确，或缺乏基础数据积累，连基础的AI应用都可能无法满足，更不用说落地大模型了。

监管方面，关于大模型能否在一些场景进行落地，目前国内外都缺乏相应的政策、法规和应对机制，从规避风险的角度，许多企业不愿意贸然引入大模型技术。一是在数据隐私方面，模型如果采用互联网公开数据训练，在特定领域的微调，是否对某些信息的版权造成侵害？二是模型的推理结果不是完全确定的，在媒体、教育等领域，监管机构无法对其生成的结果进行提前审核，落地风险较大。

三是模型本身可能存在偏见等问题，在一些领域落地可能加剧歧视和社会不公。

在不久的未来，大模型产业结构将进一步分化，形成“上游-中游-下游”三层的产业链格局。总体架构如下：上游产业包括支撑大模型研发、运行等的一系列产业的总称，总体上可分为硬件、软件两部分。其中，硬件上包括通用计算芯片、AI计算加速芯片、计算服务器、存储服务器、高速互联网络等。软件包括云计算环境、数据库组件、容器和虚拟化技术等。

中游产业主要围绕大模型技术研发、管理和运维发展。技术研发方面，主要包括算法研发所需的编程环境（语言）、算法框架等工具，甚至可能出现专业的模型测评机构。同时，可能出现一批基于模型技术开发平台、服务和软件开发的企业。

下游产业主要是大模型重点落地的场景，这些场景可以和教育、营销、社交、娱乐等产业结合，形成丰富的产业形态。

根据目前大模型落地应用情况，未来主要发展的下游场景包括：内容生产：大模型将集成在文本、PPT、表格工具，具有更为智能的能力，能够在软件内进行转写、摘录、自动补全、拼写检查、自动配图、自动翻译等高级能力。此外，一些专业领域内的软件和服务将快速发展，如博客文章撰写、新闻快讯撰写、百科撰写、小说补写、课程题目编写等，形成自动化的内容生产体系。

创意设计：大模型将具备更强的概念组合和创造能力，能够根据人类的提示自动产出概念设计等结果，其创新能力和效率或许将超过设计师水平。对话引擎：大模型将成为专业场景和日常场景对话机器人背后的底层技术，通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容，支持娱乐形象或虚拟陪伴机器人。但同时模型也能够通过微调等方式，学习专业领域知识，在特定专业领域提供支持和服务，成为智能客服。

智能检索：通过学习海量的互联网网页数据，结合大模型的生成能力，可为用户提供更为直观，便于理解的检索结果，满足数据挖掘分析、信息检索等需求。辅助开发：大模型不仅可以学习语言，对于代码等序列化数据也具有学习能力，其可以在代码检查、代码补全等方面发挥重要作用。

大模型技术的蓬勃发展，正在推动智能产业的快速发展。目前大模型产业落地仍处于较为初级的发展状态，主要存在的问题包括技术性能不足、产业模式不成熟、监管体系尚未建立等。大模型产业落地需要时间和投入，随着未来产业发展模式的成熟，围绕上中下游将诞生丰富的大模型产业链，全社会都将从大模型这一智能社会的基础平台中受益。