全世界都在抢算力,中国大公司更急迫。2022年下半年,生成式AI爆火的同时,硅谷著名风险资本a16z走访了数十家AI创业公司和科技公司。他们发现,创业公司转手就把80%-90%的早期融资款送给了云计算平台,以训练自己的模型。这带来了在云上提供模型能力和训练服务,把算力租给其它客户和创业公司的大市场。仅在国内,现在就至少有数十家创业公司和中小公司在自制复杂大语言模型,他们都得从云计算平台租GPU。
据《晚点LatePost》了解,今年春节后,拥有云计算业务的中国各互联网大公司都向英伟达下了大单。字节今年向英伟达订购了超过10亿美元的GPU,另一家大公司的订单也至少超过10亿元。仅字节一家公司今年的订单可能已接近英伟达去年在中国销售的商用GPU总和。
相比海外巨头,中国大科技公司采购GPU更为急迫。从砍单到加购,同时内部腾挪。今年初之前,中国大型科技公司对GPU的需求还不温不火。GPU在中国大型互联网科技公司中主要有两个用途:一是对内支持业务和做一些前沿AI研究,二是把GPU放到云计算平台上对外售卖。
字节跳动2017年开始建设自己的数据中心。曾经的数据中心更依赖适应所有计算的CPU,直到2020年,字节采购英特尔CPU的金额还高于英伟达GPU。字节采购量的变化,也反映了如今大型科技公司的计算需求中,智能计算对通用计算的赶超。
全世界都在抢算力。对英伟达数据中心GPU的竞赛也发生在全球范围。不过海外巨头大量购买GPU更早,采购量更大,近年的投资相对连续。2022年,Meta和甲骨文就已有对A100的大投入。Meta在去年1月与英伟达合作建成RSC超级计算集群,它包含1.6万块A100。
中国大公司现在的动作和心态都比海外巨头更急迫。以百度为例,它今年向英伟达新下的GPU订单高达上万块。数量级与Google等公司相当,虽然百度的体量小得多,其去年营收为1236亿元,只有Google的6%。
训练大模型的GPU已不算充足,各家中国公司如果真的要长期投入大模型,并赚到给其它模型需求“卖铲子”的钱,未来还需要持续增加GPU资源。走得更快OpenAI已遇到了这一挑战。
5月中旬,OpenAI CEO Sam Altman在与一群开发者的小范围交流中说,由于GPU不够,OpenAI现在的API服务不够稳定,速度也不够快,在有更多GPU前,GPT-4的多模态能力还无法拓展给每个用户,他们近期也不准备发布新的消费级产品。
在AI大模型训练上,现在A100、H100及其特供中国的减配版A800、H800找不到替代品。据量化对冲基金Khaveen Investments测算,英伟达数据中心GPU 2022年市占率达88%,AMD和英特尔瓜分剩下的部分。2020年的GTC大会上,黄仁勋携A100第一次亮相。
英伟达GPU目前的不可替代性,源自大模型的训练机制,其核心步骤是预训练和微调,前者是打基座,相当于接受通识教育至大学毕业;后者则是针对具体场景和任务做优化,以提升工作表现。预训练环节尤其消耗算力,它对单个GPU的性能和多卡间的数据传输能力有极高要求。
即使如此,A800和H800的性能依然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架构,各公司推出的AI芯片或GPU芯片,现在主要用做AI推理,难以胜任大模型预训练。简单来说,AI训练是做出模型,AI推理是使用模型,训练对芯片性能要求更高。
性能差距外,英伟达的更深护城河是软件生态。早在2006年,英伟达就推出计算平台CUDA,它是一个并行计算软件引擎,开发者可以使用CUDA更高效地进行AI训练和推理,用好GPU算力。CUDA今天已成为AI基础设施,主流的AI框架、库、工具都以CUDA为基础进行开发。
短期内,唯一影响英伟达数据中心GPU销量的可能只有台积电的产能。H100/800为4nm制程,A100/800为7nm制程,这四款芯片均由台积电代工生产。据中国台湾媒体报道,英伟达今年向台积电新增了1万片数据中心GPU订单,并下了超急件,生产时间最多可缩短50%。目前的生产瓶颈主要在先进封装产能不够,缺口达一至两成,需要3-6个月逐步提升。