柯洁和李世石可能都早已不是 AlphaGo 的对手,但他们的职业表现只需要一颗 20 瓦功率的大脑就能驱动,不到人工智能的 50 万分之一。如今,神经网络如怪物一般表现强悍,但也同怪物一般疯狂吞噬着金钱和电力,排放着二氧化碳。这真的有必要吗?神经网络训练不断飞速增长的成本,已经成为了无法忽视的问题。
人类能够高效使用工具,逐渐变得聪明,很大程度上要归功于对生的拇指。不过,假如我们在演化过程中额外获得了第二对对生的手指,使用工具的能力也未必会变得更好——一只手掌上有一个拇指,就已经足够了,再多也没用。可对神经网络而言,就是另一回事了。机器学习理论不断进步,随之膨胀的,是神经网络的规模。
在研究和实践中,人工智能专家们发现,大大增加神经网络的参数量,使其超过数据数量的过程,也就是“过参数化”(overparameterization),能够提高训练的效率,加强网络的泛化能力。但是,美国麻省理工学院(MIT)的研究者 Neil Thompson 在一项研究中指出,深度学习神经网络的发展令人工智能革命成为可能,但其不断增长的成本值得警惕。
当规模的膨胀成为了一股无法阻挡的潮流,同步骤增的金钱成本,能源消耗甚至碳排放,都成为了学界和业界无法忽视的问题。作为目前被认为最成功的预训练语言模型之一,美国人工智能公司 OpenAI 在 2020 年发布的 GPT-3 的参数量达到了 1750 亿,是它的前身 GPT-2 的一百多倍。
GPT-3 能够根据简单的创意写出完整的小说,把晦涩艰深的法律条文用平易近人的语言阐述,也能回答从柴米油盐到天文地理的提问,表现远超此前的任何自然语言处理模型。不过,与卓越表现相伴的,是高昂的代价——GPT-3 训练的硬件和电力成本高达 1200 万美元(约 7500 万人民币)。
中国的研发团队也正在大规模预训练的道路上也没有落后。智源研究院 2020 年发布的悟道 2.0 模型已经拥有 1.75 万亿个参数,相当于 GPT-3 的 10 倍。阿里达摩院 2021 年发布的 M6 模型参数量更是超过了 10 万亿。虽然专门为神经网络运算研发的芯片,如 GPU(图形处理单元)和 TPU(张量处理单元)已经大大抵消了算力需求的增长,但神经网络训练整体成本的增长仍然愈演愈烈。
事实证明,过参数化是有效的,尤其在提高大模型的表现上,是极为成功的。在 12 月 NeurIPS 会议上发布的一项研究中,美国华盛顿微软研究院(Microsoft Research)的 Sébastien Bubeck 和斯坦福大学(Stanford University)的 Mark Sellke 就为过参数化成功背后的奥秘提供了最为基础的解释。
他们的研究表明,神经网络必须比传统预期大得多,才能在训练和应用中避免一些非常基本的问题。
随着参数量和训练成本的进一步几何级增长,疑问渐渐产生:神经网络参数规模的增长,必然保证性能和效率的持续增长吗?对单一指标的关注,是否忽视了经济、环境和社会成本?这些成本,有可能被压缩吗?
虽然神经网络的规模的膨胀至少在未来数年是不可阻挡的潮流,我们仍有必要,也有能力控制它们的能耗和排放。许多学者指出,目前的学界和业界,尤其是科技巨头公司,研发神经网络的模式有过于粗放之嫌,在降低消耗方面还有很大提升空间。
通过政策的激励和管控,更合理地安排人工智能研发和部署,也是管控成本,提高整体效率的重要手段。例如,如果人工智能模型使用主要来自可再生能源的电力进行训练,其碳足迹就会相应降低;在可再生能源密集的区域,可再生电力的时间分布不均匀,在电力冗余的时段进行训练,也是提高人工智能产业能源利用效率的有效方法。
人工智能发展与能源转型的双向促进作用。
可再生新能源的开发显然能够降低包括人工智能在内的许多产业的能源成本,而人工智能的发展,也将助力可再生能源的消纳,构建更完善的电力体系。风电、光伏等绿色能源近年来快速发展,但由于波动性、随机性、反调峰等特征,并网难、消纳率的问题难以克服,大规模并网甚至可能影响电网的安全稳定运行,导致一些地方出现了“弃风”、“弃光”等现象,可再生能源利用率不高。
人工智能技术的应用,将有效提升电网等能源系统消纳多样化电源和协调多能源的能力,实现电力系统的安全、高效、稳定运行。