拥有100万亿参数的GPT-4,有何值得期待?

作者: Alberto Romero

来源: 数据实战派

发布日期: 2021-09-20 10:44:52

文章讨论了OpenAI为实现通用人工智能(AGI)所做的努力,特别是即将发布的拥有100万亿参数的GPT-4模型。文章详细描述了GPT-4的规模、潜在影响以及与Cerebras Systems合作开发的超大型芯片WSE-2。GPT-4的发布预计将带来巨大的技术进步,尽管其与人类大脑的比较仍存在争议。文章还提到了OpenAI在多模态学习方面的进展,如DALL·E和Codex,并强调了GPT-4的期待值。

为了应对实现通用人工智能(AGI, Artificial General Intelligence)的挑战,OpenAI应运而生。通俗来说,这就是一种能够完成人类所能完成的任何事情的AI。毫无疑问,这样的技术必将改变我们所认知的世界。它就如一把双刃剑,如果使用得当,可使所有人受益;倘若落入坏人之手,也会变成最具毁灭性的武器。这就是OpenAI接手这项任务的原因,以确保每个人都能平等受益。

然而,这个问题的严重性使得它可以说是人类涉足的最大的科学事业。尽管计算机科学(CS, Computer Science)和AI有了长足的进步,但没有人知道如何解决这个问题,以及它何时会成为现实。有些人认为,深度学习不足以实现AGI。伯克利大学的计算机科学教授、AI先驱Stuart Russell认为:“专注于原始计算能力完全没有切中要点……我们不知道如何让机器实现真正的智能——即使它有宇宙那么大。

”相比之下,OpenAI相信,以大型数据集为基础并在大型计算机上训练的大型神经网络是实现AGI的最佳途径。

显然,他们也是这样做的:开始训练越来越大的模型,以唤醒深度学习中隐藏的力量。朝此方向迈出的第一个非微妙步骤是GPT和GPT-2的发布。这些大型语言模型将为后续的“新秀”模型-GPT-3奠定基础。一个拥有1750亿参数,比GPT-2大100倍的语言模型。可见GPT-3是当时最大的神经网络,并且就目前来说,仍是最大的密集神经网络。它的语言专长以及数不胜数的能力令多少人为之惊叹。

OpenAI相信扩展假说(the scaling hypothesis)。给定一个可扩展的算法,即本例中的Transformer——GPT系列背后的基本架构——可能有一条通向AGI的直接路径,该路径可以基于该算法训练越来越大的模型。但大型模型只是AGI难题的一部分。训练它们需要大量的数据集和大量的计算能力。当机器学习社区开始揭示无监督学习的潜力时,数据不再是瓶颈。

这与生成语言模型和小样本任务(few-shot task)迁移一起解决了OpenAI的“大数据集”问题。他们只需要使用大量的计算资源来训练和部署他们的模型即可很好地运行。

这时到CerebrasSystems登场了。这家致力于研发用于深度学习的芯片产品的公司早在2019年便制造了有史以来最大的用于训练大型神经网络的芯片。现在他们“重出江湖”,OpenAI将很好地与其进行合作,开展新的研究。

两周前,Wired杂志发表了一篇文章,披露了两条重要消息。首先,Cerebras再次制造了市场上最大的芯片- WSE-2(Wafer Scale Engine Two)。它大约22厘米,有2.6万亿晶体管。相比之下,特斯拉(Tesla)全新的训练芯片也仅有1.25万亿晶体管。

从GPT-3开始,人们就对OpenAI及其后续版本充满了期待。现在我们知道它会在几年内问世,而且规模会非常大。

它的尺寸将超过GPT-3的500倍。是的,你没看错:500倍!GPT-4将比去年震惊世界的语言模型大500倍。GPT-4可以带给我们什么期待?100万亿的参数究竟有多大呢?为了理解这个数字概念,我们用人脑与其展开比较。一般情况下,大脑约有800-1000亿个神经元(GPT-3的数量级)和大约100万亿个突触。GPT-4将拥有与大脑的突触一样多的参数。

这种神经网络的庞大规模可能带来我们只能想象的GPT-3的质的飞跃。我们甚至可能无法用当前的提示方法测试系统的全部潜力。然而,将人工神经网络与大脑进行比较是一件棘手的事情。这种比较看似公平,但那只是因为我们假设至少在一定程度上,人工神经元是松散地基于生物神经元的。最近发表在Neuron杂志上的一项研究表明并非如此。他们发现,至少需要一个5层神经网络来模拟单个生物神经元的行为。

换句话说,每个生物神经元大约需要1000个人工神经元才可以模拟。

我们已经在DALL·E中看到了一些,它是GPT-3的一个较小版本(120亿参数),专门针对文本-图像对进行训练。OpenAI当时表示,“通过语言描述视觉概念现在已经触手可及。”OpenAI一直在不停地开发GPT-3的隐藏能力。DALL·E是GPT-3的一个特例,很像Codex。但它们并不是绝对的改进,更像是一种特殊情况。

而GPT-4具备更多的功能。举例来说,将DALL·E(文本图像)和Codex(编码)等专业系统的深度与GPT-3(通用语言)等通用系统的宽度相结合。

总之,目前看来,问题很多但答案却很少。没有人知道AGI能否成为可能,也没有人知道如何构建,亦没有人知道更大的神经网络是否会越来越向其靠近。但不可否认的一点是:GPT-4值得我们关注,必定不负期待。

UUID: 20b570d5-7ea2-4184-a1b2-10ed4f0d397e

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/学术头条_2021-09-20_「转」拥有100万亿参数的GPT-4,有何值得期待?.txt

是否为广告: 否

处理费用: 0.0055 元