2022年12月,ChatGPT横空出世,OpenAI用一个核弹级的成果改变了科学研究和工程应用的范式。在中国,ChatGPT受到了广泛的关注与深刻的讨论。在过去的一个月里,我走访各大高校、研究院、大厂、创业公司和风投,从北京到上海到杭州到深圳,跟所有头部的玩家们全部聊了一遍。
The Game of Scale在中国已然拉开,风暴中心的玩家们,在已知国内技术和生态与世界前沿的巨大鸿沟下,如何做成这件事?谁能做成这件事?
我每接触到一个创业公司,都会问同一个问题:“ChatGPT在那里,你们想做什么?”我大概能收到三种不同的答案。第一种答案很明确,要做中国的ChatGPT。因为它就在那里,所以想要复现,想要国产化。这是很经典的产品导向中文互联网思维。
第二种答案是,要做中国的OpenAI。给出这个答案的玩家,跳出了经典中文互联网产品思维。他们不止看到单个产品,而且还看到了这个产品背后,基础模型不断演化的强大驱动力,来源于尖端人才的密度和先进的组织架构。第三种答案是,要探索智能的极限。这是我听到的最好的答案。
它远超刻舟求剑式的经典互联网产品思维,也看到了组织架构和尖端人才密度的重要性,并且更重要的是它看到了未来,看到了模型演化与产品迭代,思考着如何把最深刻,最困难的问题用最创新的方法来解决。
这就涉及到了思考大模型的极限思维。观察现在的ChatGPT/GPT-3.5,它明显是一个中间状态,它还有很多可以加强,并且马上就能加强的点,包括:更长的输入框、更大的模型,更大的数据、多模态、专业化。
以上四点只是现阶段可以看到的,马上就可以加强但暂时还没有加强的点,随着时间的推移和模型的演化,会有更多可以被scale的维度进一步体现出来。这意味着我们需要有极限的思维,要思考当我们把能够拉满的维度全部拉满的时候,模型会是什么样子。
在思考清楚极限的过程之后,就可以从极限状态往后反推中间过程。
比如说,如果我们希望增长输入框的大小:如果希望把模型的输入框从千的量级增长到万的量级,可能只需要增加显卡数量,进行显存优化就能实现;如果希望接着把输入框从万的量级增长到十万的量级,可能需要linear attention的方法,因为此时加显存应该也架不住attention运算量随输入框长度的二次增长;如果希望接着把输入框从十万的量级增长到百万的量级,可能需要recursive encoding的方法和增加long-term memory的方法,因为此时linear attention可能也架不住显存的增长。
模型在不断演化,但产品化不需要等到最终那个模型完成—每当模型迭代出来一个大的版本,都可以产品化。以OpenAI的产品化过程为例:2020年,初代GPT 3训练完成,开放OpenAI API;2021年,初代Codex训练完成,开放Github Copilot;2022年,GPT-3.5训练完成,以dialog数据finetune成ChatGPT然后发布。
可以看到,在中间阶段的每一个重要版本,模型的能力都会增强,都存在产品化的机会。
人工智能显著超过人类的能力到目前为止,我们讨论了要用模型演化的视角来分析模型,要用极限的思维讨论模型的演化历程。现阶段马上可以加强的点包括了输入框的长度,更大的模型和数据,多模态数据和模型的专业化程度。现在让我们再把视野放得更长期些,思考在更大的时间和空间中,模型如何进一步地往极限推。
我们讨论:并行感知、记忆遗传、加速时间、无限生命。从这些角度来说,人工智能超过人类并不是一件难以想象的事情。这就引发了下一个问题:如何驾驭远超人类的人工智能?
这个问题,是Alignment这项技术真正想要解决的问题。当前阶段,模型的能力,除了AlphaGo在围棋上超过了最强人类之外,其他方面的AI并没有超过最强的人类(但ChatGPT在文科上或许已经超过了95%的人类,且它还在继续增长)。
在模型还没超过人类的时候,Alignment的任务是让模型符合人类的价值观和期望;但当模型继续演化到超过人类之后,Alignment的任务就变成了寻找驾驭远超人类的智能体的方法。在通往强人工智能的路上,不只是需要人类与AI对齐,人类与人类,也需要高度对齐。
从组织架构的角度,alignment涉及到:Pretraining团队与instruction tuning-alignment团队之间的对齐、Pretraining/Alignment团队与Scaling/Data团队的对齐、创业公司与VC的对齐。