近年来,随着机器学习模型规模的不断增大,相应的计算需求也在迅速增长,由此引起了多种成本的增加。其中,估算能源成本有助于衡量其对环境的影响和探寻更环保的策略,但其局限性在于没有详细的信息,这无疑给研究带来了很大的挑战。一项由谷歌和伯克利共同完成的论文,则针对几个大型模型(T5、Meena、GShard、Switch Transformer 和 GPT-3)的能源使用和碳足迹进行了计算,并对发现 Evolved Transformer 的神经网络架构搜索算法的早期估计进行了优化。该研究突出强调了以下可以提高能源效率和二氧化碳当量(Carbon Dioxide Equivalent, 是碳足迹的标准测量单位)的几个重要信息:尽管使用了同样甚至更多的参数,在不损失精度的情况下,大型且稀疏激活的 DNNs 消耗的能量小于 1/10 的大型且密集 DNNs 的能量。地理位置对于 ML 工作量调度很重要,即使是在同一个国家和同一个组织内,无碳能源(carbon-free energy)和产生的的比例也可能相差约 5-10 倍。现在的重点在于从地点和时间两方面来优化大型模型的训练。特定的数据中心基础设施同样关键,因为云数据中心(Cloud datacenters)的能源效率比典型数据中心高出 1.4-2 倍,而且其内部面向 ML 的加速器比现成系统的效率要高出 2-5 倍。尤其值得注意的是,DNN、数据中心和处理器的选择可以有效减少碳足迹(carbon footprint),其数值高达 100-1000 倍。上述这些影响大的因素也使得能源成本的追溯估计变得更加困难。为了避免计算错误,这支研究团队认为需要大量展现计算资源的 ML 论文,并且倡议在实际中明确能源消耗和等指标。与此同时,团队正在努力地在未来的研究中提高能源使用和排放的透明度。为了帮助 ML 减少碳足迹,团队认为能源使用和应该作为评估模型的关键指标,并且团队正在与 MLPerf 开发人员合作,致力于将训练期间的能源使用和推理(inference)纳入到行业标准基准之中。