GPT-4是8x2200亿参数的混合模型?这个⼩道消息今天传疯了。「GPT-4的参数量⾼达100万亿。」相信很多⼈还记得这个年初刷屏的「重磅」消息和⼀张被病毒式传播的图表。不过很快,OpenAI的CEO Sam Altman就出来辟谣,证实这是⼀条假消息,并表示,「关于GPT-4的谣⾔都很荒谬。我甚⾄不知道这从何⽽起。
」实际上,许多⼈相信并传播这样的谣⾔是因为近年来AI社区不断在增加AI模型的参数规模。⾕歌在2021年1⽉发布的Switch Transformer就把AI⼤模型参数量拉⾼到了1.6万亿。在此之后,很多机构也陆续推出了⾃⼰的万亿参数⼤模型。据此,⼈们有充分的理由相信,GPT-4将是⼀个万亿参数的巨量模型,100万亿参数也不是不可能。
虽然Sam Altman的辟谣帮我们去掉了⼀个错误答案,但他背后的OpenAI团队⼀直对GPT-4的真实参数量守⼝如瓶,就连GPT-4的官⽅技术报告也没透露任何信息。直到最近,这个谜团疑似被「天才⿊客」乔治?霍兹(George Hotz)捅破了。乔治?霍兹因17岁破解iPhone、21岁攻陷索尼PS3⽽闻名,⽬前是⼀家研发⾃动驾驶辅助系统的公司(comma.ai)的⽼板。
最近,他接受了⼀家名为Latent Space的AI技术播客的采访。在采访中,他谈到了GPT-4,称GPT-4其实是⼀个混合模型。具体来说,它采⽤了由8个专家模型组成的集成系统,每个专家模型都有2200亿个参数(⽐GPT-3的1750亿参数量略多⼀些),并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch创建者Soumith Chintala表示⾃⼰似乎听过同样的「传闻」,很多⼈可能也听过,但只有George Hotz在公开场合将其说了出来。「混合模型是你在⽆计可施的时候才会考虑的选项,」George Hotz调侃说,「混合模型的出现是因为⽆法让模型的参数规模超过2200亿。他们希望模型变得更好,但如果仅仅是训练时间更⻓,效果已经递减。
因此,他们采⽤了⼋个专家模型来提⾼性能。」⾄于这个混合模型是以什么形式⼯作的,George Hotz并没有详细说明。为什么OpenAI对此讳莫如深呢?George Hotz认为,除了苹果之外,⼤部分公司保密的原因都不是在隐藏什么⿊科技,⽽是在隐藏⼀些「不那么酷」的东⻄,不想让别⼈知道「只要花8倍的钱你也能得到这个模型」。
对于未来的趋势,他认为,⼈们会训练规模较⼩的模型,并通过⻓时间的微调和发现各种技巧来提升性能。他提到,与过去相⽐,训练效果已经明显提升,尽管计算资源没有变化,这表明训练⽅法的改进起到了很⼤作⽤。⽬前,George Hotz关于GPT-4的「爆料」已经在推特上得到了⼴泛传播。有⼈从中得到了灵感,声称要训练⼀个LLaMA集合来对抗GPT-4。
还有⼈说,如果真的像George Hotz说的那样,GPT-4是⼀个由8个2200亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多⾼。需要指出的是,由于George Hotz并未提及消息来源,我们⽬前⽆法判断以上论断是否正确。有更多线索的读者欢迎在评论区留⾔。