自2018年谷歌提出BERT模型以来,以BERT、GPT等为代表的模型越来越往「大」这一方向发展,短短3年时间,模型参数已经从最初3亿,扩张到万亿规模。与此同时,以T5、GPT-3等为代表的预训练大模型,不仅在各个NLP任务中取得SOTA结果,还同时深刻影响了CV、语音等研究领域的发展。构建「大模型」来提升性能,逐渐成为通向通用智能的一个可行方案。
智源研究院最近也发布了「悟道」模型,在中文预训练、多模态、认知以及蛋白质预测等方面取得了显著的提升。
但是,这自然带来一个灵魂之问:构建越来越大的模型,真的就会越来越好吗?大模型之路,真的能够通向通用智能吗?在3月20日,智源研究院举办的“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”上,由六位研究者分别针对这一问题,给出了“YES or NO”的答案。
边际效应在递减,性能上限仍未知。以谷歌发布的拥有1.6万亿参数的Switch Transfomer为例,当谷歌把参数量提升了一个量级后,确实会对性能有所提升,但是此时带来的性能收益已经没有以前那么「惊艳」了,并没有在某个任务上将性能提高数十个点。这似乎是一种边际效应递减的现象。不过我们目前仍然无法判断性能的上限究竟有多高。
超大规模模型调优问题仍未解决。
从「Yes」的角度来说,从ELMo到Bert再到之后的一系列模型,预训练模型的性能一直在提升,这是一个非常强的证据。从「No」的方面说,通过最近的一些实验观测结果,我们发现人们似乎之前陷入了一个误区。GPT-3之所以取得了非常好的效果,在一定程度上并不是因为它是一个非常大的模型,而是因为它找到了一种「提示」的方法,这些方法也可以应用到非常小的模型上,达到更好的效果。
此外,超大规模模型的Fine-Tuning调优还没有很好地得到解决。
通用领域,YES;专用领域,NO。我认为在通用领域的答案是「Yes」,而某在专用领域的答案是「No」。我从2012年开始关注深度学习技术在计算机视觉和自然语言处理领域的应用,模型的加深和大规模数据的应用是推动该领域模型效果不断提升的根本动力。但是从「No」的角度来看,现在的深度学习模型采用的是非常暴力的映射关系,没有考虑到知识和逻辑性,有很多的映射关系还需要进一步细化。
大,只是相对的大。就现阶段而言,模型肯定是越大越好。首先,模型的「大」是相对于「小」而言的,那么我们如何定义「大」模型呢?上世纪60年代,图灵奖获得者马文明斯基在批判第一代神经网络时,认为它所需要的计算量很大,此时的「大」指的是数十KB。在如今看来,这种规模的数据量可以说是极小的。因此,试想一下,在二十年后,如今我们眼中的「大」模型,是否还能称之为真正的大模型呢?
模型再大,无法穷尽真实世界。
我坚定地认为模型越大越好。我曾经在很长一段时间内研读过哲学,起初我认为这个世界不可理解、不可掌控,于是非常烦恼。后来,我研读了《逻辑哲学论》,该书作者维特根斯坦是一名语言哲学家,他认为整个世界的语言有一套逻辑体系,这套体系是一个规则化表述的小模型。然而,在已经影响了一个学派的情况下,维特根斯坦在接下来的研究中推翻了自己之前的结论。他认为从语用学的角度来说,语言不可以通过一套规则化的逻辑体系解释。
大,不是目的,而是手段。在我看来,就当前的计算框架而言,可能模型越大越好,因为它可以容纳更多的数据。但是,从长远来看,我认为现在的模型缺少归纳的能力,它基本上仍然是尝试学习文本数据的表层信息。在古代,人们还没有掌握万有引力定律和牛顿定律之前,可能会直接记录下物体的各种的运动规律。同理,我认为现在的模型也许仍然缺少总结归纳的能力。
今日科普:压力大,为什么会导致脱发?做简单、真实的科普。