遥遥无期还是近在咫尺?长文展望大模型商业化前景

作者: 戴一鸣

来源: 智源社区

发布日期: 2021-07-20

本文详细分析了大模型技术的发展历程、当前产业落地情况、未来产业模式、常见落地领域、面临的困难与挑战以及产业链展望。文章指出,大模型技术不仅是学术界重点投入的领域,产业领域也在期待其能够在各个场景加速落地。尽管大模型技术目前面临性能不足、产业模式不成熟、监管体系尚未建立等挑战,但随着未来产业发展模式的成熟,大模型将成为智能应用和服务的基础技术,推动产业智能化发展。

从2018年谷歌提出BERT预训练语言模型至今,作为深度学习领域的集大成者,超大规模预训练模型(简称:“大模型”)仅仅走过了三年的发展历程。大模型技术不仅是学术界重点投入的领域,产业领域也在期待其能够在各个场景加速落地。大模型不仅能够提升应用服务的智能水平,甚至还有望催生新的场景和产业模式。本文主要分析目前大模型适合落地的场景和应用模式,并展望未来的产业发展态势,以期为读者带来一些思考。

超大规模预训练模型是采用超大参数规模(超过亿级别),依赖强大算力,在海量数据上进行预训练的AI模型。预训练后的大模型具有较为通用的能力,可以通过微调,甚至不微调,而在细分任务上超越以往单一领域专用AI模型性能。

目前,在这一领域已诞生大量的模型,主要集中在自然语言处理领域,其中有谷歌提出的BERT、T5等,FaceBook提出的RoBERTa等,OpenAI提出的GPT-3等,参数规模在数十亿到千亿不等。在多模态任务领域,近年来也诞生了一批值得关注的模型,如OpenAI在今年1月提出的DALL·E等。

我国在大模型领域也取得了许多成就,知名模型包括清华大学等提出的ERNIE、百度的ERNIE2.0、阿里提出的PLUG等、华为云等提出的盘古NLP,以及智源研究院研发的悟道1.0、悟道2.0模型。大模型技术目前呈现百花齐放、百家争鸣的发展格局。

研发更大、更通用的模型,对于科研机构和企业都是沉重的负担,例如GPT-3模型的训练成本就超过了1200万美元,OpenAI和微软更是斥巨资打造专用AI超算支撑研发工作。大模型“烧钱”是业界的普遍共识,这也驱动研发机构加快商业变现步伐。而下游场景的企业也急需要能够降低AI研发成本,进一步提升AI能力的强大技术。

大模型不再是机构“秀肌肉”的玩具,而是真正成为智能应用和服务的基础技术,推动产业智能化发展。

当前全球大模型商业落地仍处于早期探索阶段。一方面,研发机构熟悉大模型基本技术,但缺乏有效落地场景,需要与下游场景企业合作建立大模型商业模式;另一方面,绝大多数下游场景的企业没有足够的算力和开发资源定制/微调大模型。这造成了一种基于API而非开源模型的产业格局:大模型是否开源本身并不关键,研发机构只需要开放满足应用需求的API,由企业提供反馈,将模型融入企业本身的业务环节中。

目前大模型领域商业落地较为成功的案例是GPT-3。在OpenAI在公开GPT-3论文后,也同时开放了模型的API申请通道,鼓励研究者、开发者、企业从业者研究“好玩的”GPT-3应用,以此促动大模型的产业场景发展。

在开源社区培养了一批GPT-3的开发和用户人群后,OpenAI对外开放API商业运营计划,让GPT-3成为营收来源,据OpenAI统计,截至今年3月,全球已有300多个APP使用了GPT-3的技术,全球开发者数量上万,模型每天生成45亿个词汇,而且数量还在不断增长。

仅开放商业API或许还不能满足OpenAI的盈利需求,面对微软10亿美元的投资,OpenAI也“投桃报李”,将GPT-3模型优先使用授权打包奉上,微软可以自由微调。在数据分析领域,大模型能够根据数据科学家的需求自动生成分析检索代码,降低了数据分析的技术门槛,使企业业务人员直接进行大型分析和决策。如微软的Microsoft Power App数据分析平台中就集成了GPT-3模型。

目前主要有两种大模型产业落地模式,一是将大模型作为智能系统中的一个组成部分,二是直接基于大模型形成产业体系。集成于已有智能系统中,实现降本增效。企业在获得大模型时,首先考虑的是将模型集成于已有的产品或服务中,通过提升某一个环节的智能能力,实现整体系统的效率提升,降低成本。例如,原本生产体系中需要人力投入的环节,可由大模型代替或辅助。

更重要的是,大模型也可脱离已有的智能产业独立发展。

未来将可能围绕大模型建立独立的产业体系,形成智能能力(简称“智力”)的生产和消费模式。正如智源研究院理事长张宏江所言:“如果将AI比作电力,那么大模型则相当于「发电机」,能将智能在更大的规模和范围普及。”大模型的智能能力在未来将成为一种公共基础资源,像电力或自来水一样随取随用。

每个智能终端、每个APP,每个智能服务平台,都可以像接入电网一样,接入由IT基础设施组成的“智力”网络(俗称“智网”),让智能能力完成日常中方方面面的任务,帮助人类从枯燥重复的工作中解放出来,实现生产力的发展。

基于大模型形成的大规模智能网络和云计算完全不同。云计算尽管也将算力比作随取随用的资源,但目前仍然做不到像电力一样的方便取用。

这是因为云计算本质上需要云和用户进行双向的资源交换,用户需要经过繁琐的数据准备、计算过程定义等过程,将数据和算法转移到云端,再由云端完成任务后传回本地。

而基于大模型的“智网”则不需要用户定义计算过程,只需要准备好数据,大模型强大的能力能够在少量微调(few-shot)甚至不微调(zero-shot)的情况下直接完成用户所需的工作,就像是家用电器只需要电力驱动电机,具体用途则由电器本身的属性定义,实现“动力”和“用途”的隔离。这一智能能力生产和消费的网络,未来或将成为人类社会产业发展的主流模式。

预训练语言模型尽管GPT-3的案例说明,大模型的应用前景非常惊人,但是对于模型适合落地的应用场景和领域,目前产业界并没有定论。对于不同类型的大模型,其产业落地的进程有所区别。对于BERT、GPT-3等预训练语言模型,其在对话、文本改写补全、风格变换、文本生成等任务上具有明显优势,因此适合许多文字相关的场景,如媒体、社交、营销、教育等领域。

此外,大模型普遍采用Transformer技术架构,适合处理各类时序数据,因此也可以扩展到代码补全等场景。

多模态预训练模型多模态模型由于学习了图-文等数据,因此相比语言模型在更复杂场景具有应用优势,特别是需要创意生成的领域,如艺术设计、广告等。例如,DALL·E模型能够根据文本指令,生成对应的图像,产生很多人类想不到的奇思妙想。如果日后模型具有学习视频、音频等数据的能力,其在文化娱乐产业的应用水平将进一步提升。

面向未来产业界更为复杂的智能决策场景,基于多种网络数据预训练,具有决策能力的大模型可能是下一步发展的重点。例如,谷歌在今年的IO大会上公开了MUM(多任务统一模型:Mutitask Unified Model)的发展情况。据谷歌透露,MUM模型能够理解75种语言,并预训练了大量的网页数据,擅长理解和解答复杂的决策问题,并能够从跨语言多模态网页数据中寻找信息。

谷歌展示了MUM模型通过用户英文提问搜索日文信息源,并提供旅行攻略的过程。说明当大模型学习更为丰富的模态数据后,其在处理复杂信息理解和生成任务时会有更强的表现。

大模型能够落地应用的领域,本质上和其预训练的数据模态、数据类型密切相关。

例如面向目前对视觉通用任务处理的需求,“视觉大模型”——即采用Transformer架构,但学习大量的图像和视频数据,让模型产生视觉通用能力的模型应运而生,这是已有的多模态模型还做不到的。考虑到视觉任务在日常生活和产业发展中占据更大的比重,笔者认为,如果视觉大模型能够达到产业落地所需的精度,其落地场景和商业化进程或许会超过语言大模型。

总体而言,大模型落地困难主要在于:一是模型智能能力不足,不足以驱动下游应用服务(家用电器)运作;二是产业模式发展不够成熟,模型和应用服务之间尚未建立成熟的互动机制,即使智能能力接入,下游应用无法将智能能力转换为实际的能力和服务。此外,大模型加剧了伦理、数据隐私安全等方面的矛盾,但相应的监管机制尚不健全。

目前阻碍大模型广泛落地的主要原因包括三个方面因素。技术方面,大模型存在性能、配套服务等方面的不足。大模型的推理性能达不到日常应用的水平,这主要是因为模型不具有常识,无法进行逻辑推理,因此会产生很多语法正确但没有任何意义的句子/图片。这需要模型进一步加强对常识的学习和理解能力,如引入知识图谱等,帮助模型真正“理解”所学所说的内容。

产业方面,目前围绕大模型的产业模式仍处于初步发展阶段。

对于将大模型集成在已有的技术体系中,产业界目前没有明确的定论,采用API、本地部署微调模型、基于模型公开架构进行自研等模式均具有一定的优势,但投入也相应增加,企业尚且对大模型技术还不够了解,更不用说确定一种符合自身产业发展的模式。此外,目前企业普遍缺乏领域定义明确,积累较好的数据集。许多场景或限定不够明确,或缺乏基础数据积累,连基础的AI应用都可能无法满足,更不用说落地大模型了。

监管方面,关于大模型能否在一些场景进行落地,目前国内外都缺乏相应的政策、法规和应对机制,从规避风险的角度,许多企业不愿意贸然引入大模型技术。一是在数据隐私方面,模型如果采用互联网公开数据训练,在特定领域的微调,是否对某些信息的版权造成侵害?二是模型的推理结果不是完全确定的,在媒体、教育等领域,监管机构无法对其生成的结果进行提前审核,落地风险较大。

三是模型本身可能存在偏见等问题,在一些领域落地可能加剧歧视和社会不公。

在不久的未来,大模型产业结构将进一步分化,形成“上游-中游-下游”三层的产业链格局。总体架构如下:上游产业包括支撑大模型研发、运行等的一系列产业的总称,总体上可分为硬件、软件两部分。其中,硬件上包括通用计算芯片、AI计算加速芯片、计算服务器、存储服务器、高速互联网络等。软件包括云计算环境、数据库组件、容器和虚拟化技术等。

中游产业主要围绕大模型技术研发、管理和运维发展。技术研发方面,主要包括算法研发所需的编程环境(语言)、算法框架等工具,甚至可能出现专业的模型测评机构。同时,可能出现一批基于模型技术开发平台、服务和软件开发的企业。

下游产业主要是大模型重点落地的场景,这些场景可以和教育、营销、社交、娱乐等产业结合,形成丰富的产业形态。

根据目前大模型落地应用情况,未来主要发展的下游场景包括:内容生产:大模型将集成在文本、PPT、表格工具,具有更为智能的能力,能够在软件内进行转写、摘录、自动补全、拼写检查、自动配图、自动翻译等高级能力。此外,一些专业领域内的软件和服务将快速发展,如博客文章撰写、新闻快讯撰写、百科撰写、小说补写、课程题目编写等,形成自动化的内容生产体系。

创意设计:大模型将具备更强的概念组合和创造能力,能够根据人类的提示自动产出概念设计等结果,其创新能力和效率或许将超过设计师水平。对话引擎:大模型将成为专业场景和日常场景对话机器人背后的底层技术,通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容,支持娱乐形象或虚拟陪伴机器人。但同时模型也能够通过微调等方式,学习专业领域知识,在特定专业领域提供支持和服务,成为智能客服。

智能检索:通过学习海量的互联网网页数据,结合大模型的生成能力,可为用户提供更为直观,便于理解的检索结果,满足数据挖掘分析、信息检索等需求。辅助开发:大模型不仅可以学习语言,对于代码等序列化数据也具有学习能力,其可以在代码检查、代码补全等方面发挥重要作用。

大模型技术的蓬勃发展,正在推动智能产业的快速发展。目前大模型产业落地仍处于较为初级的发展状态,主要存在的问题包括技术性能不足、产业模式不成熟、监管体系尚未建立等。大模型产业落地需要时间和投入,随着未来产业发展模式的成熟,围绕上中下游将诞生丰富的大模型产业链,全社会都将从大模型这一智能社会的基础平台中受益。

UUID: 8765f9e8-a0d6-4b07-9433-049688077509

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-07-20_遥遥无期还是近在咫尺?长文展望大模型商业化前景.txt

是否为广告: 否

处理费用: 0.0102 元