GPT-4是8x2200亿参数的混合模型?

作者: 吴昕

来源: 机器之⼼

发布日期: 2023-06-21 16:43:27

关于GPT-4的参数量,有传言称其为100万亿,但被OpenAI的CEO Sam Altman辟谣。最近,乔治?霍兹在采访中透露,GPT-4实际上是一个由8个专家模型组成的混合模型,每个模型有2200亿参数。这一信息在AI社区引起了广泛讨论,但因缺乏确切来源,其准确性尚待确认。

GPT-4是8x2200亿参数的混合模型?这个⼩道消息今天传疯了。「GPT-4的参数量⾼达100万亿。」相信很多⼈还记得这个年初刷屏的「重磅」消息和⼀张被病毒式传播的图表。不过很快,OpenAI的CEO Sam Altman就出来辟谣,证实这是⼀条假消息,并表示,「关于GPT-4的谣⾔都很荒谬。我甚⾄不知道这从何⽽起。

」实际上,许多⼈相信并传播这样的谣⾔是因为近年来AI社区不断在增加AI模型的参数规模。⾕歌在2021年1⽉发布的Switch Transformer就把AI⼤模型参数量拉⾼到了1.6万亿。在此之后,很多机构也陆续推出了⾃⼰的万亿参数⼤模型。据此,⼈们有充分的理由相信,GPT-4将是⼀个万亿参数的巨量模型,100万亿参数也不是不可能。

虽然Sam Altman的辟谣帮我们去掉了⼀个错误答案,但他背后的OpenAI团队⼀直对GPT-4的真实参数量守⼝如瓶,就连GPT-4的官⽅技术报告也没透露任何信息。直到最近,这个谜团疑似被「天才⿊客」乔治?霍兹(George Hotz)捅破了。乔治?霍兹因17岁破解iPhone、21岁攻陷索尼PS3⽽闻名,⽬前是⼀家研发⾃动驾驶辅助系统的公司(comma.ai)的⽼板。

最近,他接受了⼀家名为Latent Space的AI技术播客的采访。在采访中,他谈到了GPT-4,称GPT-4其实是⼀个混合模型。具体来说,它采⽤了由8个专家模型组成的集成系统,每个专家模型都有2200亿个参数(⽐GPT-3的1750亿参数量略多⼀些),并且这些模型经过了针对不同数据和任务分布的训练。

在这段播客播出之后,PyTorch创建者Soumith Chintala表示⾃⼰似乎听过同样的「传闻」,很多⼈可能也听过,但只有George Hotz在公开场合将其说了出来。「混合模型是你在⽆计可施的时候才会考虑的选项,」George Hotz调侃说,「混合模型的出现是因为⽆法让模型的参数规模超过2200亿。他们希望模型变得更好,但如果仅仅是训练时间更⻓,效果已经递减。

因此,他们采⽤了⼋个专家模型来提⾼性能。」⾄于这个混合模型是以什么形式⼯作的,George Hotz并没有详细说明。为什么OpenAI对此讳莫如深呢?George Hotz认为,除了苹果之外,⼤部分公司保密的原因都不是在隐藏什么⿊科技,⽽是在隐藏⼀些「不那么酷」的东⻄,不想让别⼈知道「只要花8倍的钱你也能得到这个模型」。

对于未来的趋势,他认为,⼈们会训练规模较⼩的模型,并通过⻓时间的微调和发现各种技巧来提升性能。他提到,与过去相⽐,训练效果已经明显提升,尽管计算资源没有变化,这表明训练⽅法的改进起到了很⼤作⽤。⽬前,George Hotz关于GPT-4的「爆料」已经在推特上得到了⼴泛传播。有⼈从中得到了灵感,声称要训练⼀个LLaMA集合来对抗GPT-4。

还有⼈说,如果真的像George Hotz说的那样,GPT-4是⼀个由8个2200亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多⾼。需要指出的是,由于George Hotz并未提及消息来源,我们⽬前⽆法判断以上论断是否正确。有更多线索的读者欢迎在评论区留⾔。

UUID: c6eb1988-3477-4cd8-aded-e70c325c24c6

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-06-21_GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了.txt

是否为广告: 否

处理费用: 0.0041 元