AI竞赛,学界正在输给业界

作者: 学术头条

来源: Science

发布日期: 2023-03-03 16:11:29

随着深度学习成为领先技术,AI研究的主导地位正向业界倾斜,业界在数据、算力和人才方面的优势显著。这种转变带来了消费者受益的同时,也引发了全球决策者的担忧,即重要AI工具的公共科技替代品可能变得稀缺。业界在AI研究中的主导地位体现在学术出版物、尖端模型和关键基准方面的影响力增加。尽管业界投资增加可能带来社会利益,但其商业动机可能导致研究方向偏重于盈利导向,忽视其他AI方法和社会伦理影响。学界可通过监管和政策应对措施重塑AI前沿,确保有资源审查或监控业界模型,或生成符合公众利益的替代模型。

人工智能(AI)正在向业界倾斜。相⽐于学界的前沿性研究,⻛靡当下的 AI 聊天机器⼈ ChatGPT、AI 艺术⽣成器 Midjourney,以及微软发布的新⼀代 AI 驱动搜索引擎 New Bing、⾕歌发布的 ChatGPT 竞品 Bard 和那些未来将要发布的“类 ChatGPT”等,似乎正在预示着⼀场更⼤、更系统的变⾰。

尽管消费者能够从业界的这些成果中受益,但伴随⽽来的是全球决策者的担忧——重要 AI ⼯具的公共科技替代品可能会越来越稀缺。2023 年 3 ⽉ 3 ⽇,来⾃麻省理⼯学院、弗吉尼亚理⼯⼤学的研究团队在权威科学期刊 Science 上发⽂,阐述了业界在“数据、算⼒与⼈才”⽅⾯的优势,并探讨了业界的这些优势可能带来的隐患,以及可⾏的对策。

⼏⼗年来,AI 研究在学界和业界并存,但随着深度学习成为该领域的领先技术,平衡正在向业界倾斜。我们常常看到业界 AI 的成功,如 DALL·E 2、ChatGPT、new Bing 等。然⽽,这些头条新闻预示着⼀场更⼤、更系统的变⾰:业界正在占据 AI 研究的主导地位,从⼤型数据集、计算能⼒和⾼技能研究⼈员三⽅⾯⽀配着 AI 投⼊。

这种⽀配正在转化为⼀系列研究成果:业界在学术出版物、尖端模型和关键基准⽅⾯的影响⼒越来越大。尽管消费者能够从中受益,但伴随⽽来的是全球决策者的担忧——重要 AI ⼯具的公共科技替代品可能会越来越稀缺。业界的投⼊优势:数据、算⼒与⼈才。业界⻓期以来更能够访问⼤型、具有经济价值的数据集,因为⼤量⽤户与设备交互时会⾃然⽽然地产⽣数据。

例如,在 2020 年,WhatsApp 美国⽤户每天发送⼤约 1000 亿条消息。然⽽,业界的主导地位除了凸显在数据之外,更是扩展到了现代 AI 的其他关键投⼊:⼈才和计算能⼒。在过去⼗年中,AI ⼈才的需求骤升导致了 AI ⼈才竞争的加剧。然⽽,业界正在赢得这场竞赛。来⾃北美州的众多⼤学的数据显示,专⻔研究 AI 的计算机科学(CS)博⼠毕业⽣正以前所未有的数量进⼊业界。

2004 年,只有 21% 的 AI 博⼠进⼊业界,但到 2020 年,这⼀数量占⽐⾼达 70%。专⻔研究 AI 的 CS 研究⼈员也从⼤学被聘请到业界⼯作。⾃ 2006 年以来,这⼀招聘⼈数增⻓了 8 倍,远⾼于 CS 研究⼈员的整体增⻓。这种担忧并不局限于美国的⼤学。在英国,华威⼤学国王⼗字校区院⻓ Abhinay Muthoo 表示,“顶尖的科技公司正在汲取⼤学的精华”。

学界和业界的算⼒使⽤也呈现出越来越⼤的差距。在图像分类中,业界使⽤的算⼒⽐学界或业界-学界合作使⽤的更⼤,并且增⻓更快。研究运⽤参数数量(所需算⼒的关键决定因素之⼀)来代替模型中使⽤的计算能⼒。2021 年,业界模型的平均规模是学界的 29 倍,突显出两组计算能⼒的巨⼤差异。业界雇佣⼈才和利⽤更⼤算⼒的能⼒很可能是造成 AI 研究成果差异的原因。

虽然公共和私营部⻔在 AI ⽅⾯的投资都在⼤幅增加,但业界的投资更⼤、增⻓更快。2021 年,⾮国防的美国政府机构在 AI ⾏业拨款 15 亿美元。同年,欧盟委员会计划⽀出 10 亿欧元。相⽐之下,同年全球范围内,业界在 AI 上的⽀出超过了 3400 亿美元,⼤⼤超过了公共投资。

例如,2019 年,⾕歌⺟公司 Alphabet 在其⼦公司 DeepMind 上花费了 15 亿美元,这只是其 AI 投资的⼀部分。在欧洲,这⼀差距较⼩,但仍然存在;AI Watch 估计,“私营和公共部⻔分别占欧盟 AI 投资的 67% 和 33%”。开展 AI 研究所需资⾦规模的⼀个例⼦来⾃ OpenAI,它最初是⼀个⾮营利组织,声称“不受产⽣财务回报的约束”,旨在“造福整个⼈类”。

四年后,OpenAI 将其定位改为“有上限的营利组织”,并宣布这⼀改变将使他们“迅速增加对算⼒和⼈才⽅⾯的投资”。业界在 AI 研究中⽇益占据主导地位。如今,业界对 AI 输⼊的主导地位表现在 AI 成果的⽇益突出,尤其是在研究发布、创建最⼤模型和超越关键基准⽅⾯。

在主要 AI 会议上,由⼀位或多位业界联合作者撰写的研究论⽂从 2000 年的 22% 增⻓到 2020 年的 38%;业界在最⼤的 AI 模型中所占份额已从 2010 年的 11% 上升到 2021 年的 96%。

在 AI 基准⽅⾯,纵观图像识别、语义分析、语⾔建模、语义分割、对象检测和机器翻译 6 个⽅⾯,以及涵盖机器⼈和常识推理等领域的另外 14 项基准,在 2017 年之前,业界单独或与⼤学合作,有 62% 的时间处于领先地位。⾃ 2020 年以来,这⼀⽐例已上升到 91%。

因此,通过在领先的研究机构发表⽂章、建⽴最先进的 AI 模型以及超越关键基准三个⽅⾯衡量,分析表明,业界在 AI 产出⽅⾯的地位越来越突出。业界的压倒性优势带来隐患。业界对 AI 的投资不断增加,可能通过技术的商业化为社会带来巨⼤利益。公司可以创造更好的产品,使消费者受益——机器翻译有利于国际贸易,并能简化流程降低成本。业界对 AI 的投资还产⽣了对整个社区有价值的⼯具。

例如,学界⼴泛使⽤的 PyTorch 和 TensorFlow,促进深度学习模型⾼效训练的硬件如 TPU,以及可公开访问的预训练模型——Meta 的 OPT 模型。与此同时,AI 在业界中的集中也令⼈担忧,业界的商业动机促使他们关注以盈利为导向的话题。如果所有的前沿模型都来⾃业界,就会出现不存在具有公共意识的替代品的情况。

换句话来说,“优先部⻔的 AI 研究⼈员倾向于专注于数据要求⾼和计算密集的深度学习⽅法”是以“涉及其他 AI ⽅法的研究、考虑 AI 的社会和伦理影响的研究以及在健康等领域的应⽤”为代价的。AI 的发展轨迹如何?谁来控制它?AI 会替代⼈类吗并引发不平等吗?⼀些研究⼈员担⼼,“我们可能正⾛向社会次优轨迹,它更侧重于替代⼈类劳动,⽽不是增强⼈类能⼒。

”⼀些⼈展开想象:业界和学界可能会形成与其他学科类似的分⼯:基础研究主要由⼤学完成,⽽应⽤研究和开发则主要由业界完成。然⽽,在 AI 领域,产学的明确分⼯并不存在。业界所使⽤的应⽤模型往往是那些突破基础研究边界的模型。例如,transformer 是由⾕歌⼤脑研究⼈员于 2017 年开发的⼀种深度学习架构,使得基础研究向前迈出重要⼀步,并且⼏乎⽴即应⽤于业界使⽤。

尽管这意味着学术⼯作可以直接惠及业界,但是应⽤⼯作的业界主导权也赋予了它决定基础研究⽅向的权⼒。鉴于 AI ⼯具可以在整个社会中得到⼴泛的应⽤,这种情况将使少数技术公司在社会发展⽅向拥有巨⼤的权⼒。对于世界上许多⼈来说,这种担忧进⼀步加剧,因为这些组织对他们来说是“外国公司”。

例如,⽣命未来研究所认为,“欧洲公司没有开发通⽤ AI 系统,⽽且由于他们与美国和中国公司相⽐在竞争上处于相对劣势,不太可能很快开始开发”。学界重塑 AI 前沿的可⾏之路。通过对业界 AI 的审查或外部监督,监管可能是解决⽅案。例如,2018 年,学者 Joy Buolamwini 和 Timnit Gebru 记录了商业⼈脸识别系统中的性别和种族偏⻅。

然⽽,如果学界不能接触到业界的 AI 系统,或者没有资源来开发竞争模型,他们解释业界模型或提供公共利益的替代⽅案的能⼒将受到限制。这既是因为学界⽆法建⽴尖端性能所需的⼤型模型,也是因为 AI 系统的⼀些有⽤的能⼒似乎是“涌现”的——系统只有在特别⼤的时候才能获得这些能⼒。模型的⼀些负⾯特征似乎也随着规模的增加⽽扩⼤。例如,AI ⽣成的语⾔中的毒性以及刻板印象。

在任何⼀种情况下,没有⾜够资源的学者都⽆法对这些重要领域做出有意义的贡献。在全球范围内,这种对学界在 AI 研究中的资源劣势的担忧正在被认识到,并开始出现政策应对措施。在美国,NAIRR ⼯作组提议创建公共研究云和公共数据集。在加拿⼤,国家⾼级研究计算平台⼀直在为该国的学界服务,⾃从近⼗年前启动以来,⼀直被超额使⽤。对许多国家来说,这类投资所需的规模可能令⼈望⽽⽣畏。

在这种情况下,决策者⾯临的关键问题将是,他们是否能够与志同道合的合作者⼀起筹集⾜够的资源,以达到创建反映⾃⼰优先事项的 AI 系统所需的规模。算⼒并不是提供补救措施的唯⼀领域,构建公共数据集将⾮常重要。但是,这并⾮易事,因为现代 AI 训练数据集可以是数⼗亿份⽂档。特别值得关注的是,创建没有直接商业利益的重要数据集,以及提供资源让顶尖 AI 研究⼈员留在学界。

例如,加拿⼤研究主席计划(CRCP)通过提供⼯资和研究基⾦吸引加拿⼤顶尖⼈才。对于致⼒于这⼀问题的决策者来说,⽬标应该是确保有⾜够的能⼒来帮助审查或监控业界模型,或⽣产出符合公众利益的替代模型。有了这些能⼒,学界可以继续塑造现代 AI 研究的前沿,并为负责任的 AI 制定基准。若没有这些能⼒,重要的公众兴趣 AI ⼯作将被抛弃。

UUID: 712c73f5-37b5-47be-8394-adc090212a5c

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-03-03_Science:AI竞赛,学界正在输给业界.txt

是否为广告: 否

处理费用: 0.0105 元