GPT-4是8x2200亿参数的混合模型？

GPT-4是8x2200亿参数的混合模型？这个⼩道消息今天传疯了。「GPT-4的参数量⾼达100万亿。」相信很多⼈还记得这个年初刷屏的「重磅」消息和⼀张被病毒式传播的图表。不过很快，OpenAI的CEO Sam Altman就出来辟谣，证实这是⼀条假消息，并表示，「关于GPT-4的谣⾔都很荒谬。我甚⾄不知道这从何⽽起。

」实际上，许多⼈相信并传播这样的谣⾔是因为近年来AI社区不断在增加AI模型的参数规模。⾕歌在2021年1⽉发布的Switch Transformer就把AI⼤模型参数量拉⾼到了1.6万亿。在此之后，很多机构也陆续推出了⾃⼰的万亿参数⼤模型。据此，⼈们有充分的理由相信，GPT-4将是⼀个万亿参数的巨量模型，100万亿参数也不是不可能。

虽然Sam Altman的辟谣帮我们去掉了⼀个错误答案，但他背后的OpenAI团队⼀直对GPT-4的真实参数量守⼝如瓶，就连GPT-4的官⽅技术报告也没透露任何信息。直到最近，这个谜团疑似被「天才⿊客」乔治?霍兹（George Hotz）捅破了。乔治?霍兹因17岁破解iPhone、21岁攻陷索尼PS3⽽闻名，⽬前是⼀家研发⾃动驾驶辅助系统的公司（comma.ai）的⽼板。

最近，他接受了⼀家名为Latent Space的AI技术播客的采访。在采访中，他谈到了GPT-4，称GPT-4其实是⼀个混合模型。具体来说，它采⽤了由8个专家模型组成的集成系统，每个专家模型都有2200亿个参数（⽐GPT-3的1750亿参数量略多⼀些），并且这些模型经过了针对不同数据和任务分布的训练。

在这段播客播出之后，PyTorch创建者Soumith Chintala表示⾃⼰似乎听过同样的「传闻」，很多⼈可能也听过，但只有George Hotz在公开场合将其说了出来。「混合模型是你在⽆计可施的时候才会考虑的选项，」George Hotz调侃说，「混合模型的出现是因为⽆法让模型的参数规模超过2200亿。他们希望模型变得更好，但如果仅仅是训练时间更⻓，效果已经递减。

因此，他们采⽤了⼋个专家模型来提⾼性能。」⾄于这个混合模型是以什么形式⼯作的，George Hotz并没有详细说明。为什么OpenAI对此讳莫如深呢？George Hotz认为，除了苹果之外，⼤部分公司保密的原因都不是在隐藏什么⿊科技，⽽是在隐藏⼀些「不那么酷」的东⻄，不想让别⼈知道「只要花8倍的钱你也能得到这个模型」。

对于未来的趋势，他认为，⼈们会训练规模较⼩的模型，并通过⻓时间的微调和发现各种技巧来提升性能。他提到，与过去相⽐，训练效果已经明显提升，尽管计算资源没有变化，这表明训练⽅法的改进起到了很⼤作⽤。⽬前，George Hotz关于GPT-4的「爆料」已经在推特上得到了⼴泛传播。有⼈从中得到了灵感，声称要训练⼀个LLaMA集合来对抗GPT-4。

还有⼈说，如果真的像George Hotz说的那样，GPT-4是⼀个由8个2200亿参数的专家模型组合的混合模型，那很难想象背后的推理成本有多⾼。需要指出的是，由于George Hotz并未提及消息来源，我们⽬前⽆法判断以上论断是否正确。有更多线索的读者欢迎在评论区留⾔。