听李宏毅点评GPT-3:来自猎人暗黑大陆的模型

作者: 数据实战派

来源: 数据实战派

发布日期: 2021-03-25

李宏毅老师对GPT-3进行了详细的讲解,称其为“来自猎人暗黑大陆的模型”。GPT-3是OpenAI推出的一个巨大的语言模型,具有1750亿个参数,是之前最大模型Turing NLG的10倍。GPT-3的神奇之处在于它能够进行Few-shot Learning、One-shot Learning和Zero-shot Learning,并且在某些任务上表现超越了之前的SOTA模型。此外,GPT-3还展示了在文本生成和数学问题解决方面的能力。然而,GPT-3在处理NLI问题时表现不佳,且在提供人类建议方面的能力仍有待提高。

提起李宏毅老师,熟悉 AI 的读者朋友一定不会陌生。在 GPT-3 推出之后,李宏毅老师专门讲解了这个非同凡响的模型,称之为“来自猎人暗黑大陆的模型”。OpenAI 发表了新的巨大的 language model,在此之前 OpenAI 已经发表了 GPT,还有轰动一时的 GPT-2,现在到了 GPT-3。GPT-3 跟 GPT-2 基本上没有什么不同,它们都是 language model。

GPT-3 神奇的地方是它太过巨大。在它之前,最大的 model 是 Turing NLG,Turing NLG 已经非常的巨大,它有 17 个 billion 的参数,远超之前 OpenAI 发表的 GPT-2 和最早的 GPT。而第三代的 GPT 有多大?它是 Turing NLG 的 10 倍,它有 175 个 billion 的参数,也就是 1750 亿个参数。

GPT-3 的论文题目为 Language Models are Few-Shot Learners。GPT 系列的工作,就是在问:我们能不能拿掉 fine-tune 这个步骤,能不能 pre-train 一个模型,这个模型就可以直接解决 downstream task,连 fine-tune 都不需要。GPT 系列的终极目标也许就是这样。

GPT 做的事情是这个样子,它有三个可能:Few-shot Learning,One-shot Learning,Zero-shot Learning。在 Few-shot Learning 情况下,首先给 GPT 的 model 看一个句子,这个句子是任务的说明。如果是翻译,任务的说明就是 translate English to French,希望机器能够看得懂这个句子的意思。

然后接下来给它几个范例,告诉它 sea otter 就是翻译成这样,Plush girafe 就是翻译成这样。接下来开始考试,问它 cheese 应该翻译成什么。

GPT-3 这篇 paper 表现如何?硕大无朋的 GPT-3 表现如何?上图是论文中所用的 42 个 task 的平均情况。

数目正好是 42,这是个很巧的数字,我们知道 42 是生命的意义(《银河系漫游指南》中的计算机用了 N 久的时间得出的结果),不知道这里的 42 个任务是不是刻意选择出来的。上图纵轴是正确率,横轴是 model 的大小,从 0.1 billion 一直到 175 billion。蓝色是 Zero Shot,绿色是 One Shot,橙色是 Few Shot。

可以看到随着 model 越来越大,不管是 Few-shot Learning、One-shot Learning 还是 Zero-shot Learning 的正确率,都越来越高。

GPT-3 还学会了造句。你先告诉 GPT-3 要怎么造句,造句是怎么一回事,先给一个词汇的定义。比如,有一个东西叫做“whatpu”,“whatpu”是什么,“whatpu”是一个小的毛茸茸的动物。

接下来,以“whatpu”为词汇造一个句子,如我们去非洲旅行,我们看到很多可爱的 whatpu。再给一个胡乱创造的词汇,这个词汇叫做“Burringo”,是一种跑得很快的车。要 GPT-3 用“Burringo”造一个句子,然后 GPT-3 就说在我们家的车库里面有一个 Burringo,我爸爸每天都开 Burringo 上下班。它知道 Burringo 是一个可以开的东西。

GPT-3 的数学水平可以做到什么程度?上图横轴代表的是使用模型的参数量,纵轴代表的是正确率。如果看这些参数量最多的模型,你会发现,基本上在两位数的加法跟两位数的减法上,可以得到不错的几乎 100% 的正确率。三位数的减法也做得不错,也不知道为什么三位数的加法就稍微差一点。其他更困难的问题——4 位数、5 位数的加法,对它来说就比较困难,但至少它学会了二位数跟三位数的加减法(三位数不算完全学会)。

现在,我们有了这么多巨大的 model,它们到底能够了解人类语言到什么样的程度?有一个比赛叫做 Turing Advice Challenge。它跟 GPT-3 没有什么直接关系了,只是想到现在有这么多巨大的 model,好像都理解人类语言,那它们可以像人类一样知道怎么使用这些语言吗?而 Turing Advice Challenge 这个比赛,就是要机器去 reddit 上给人类意见。

reddit 上会有很多 points,举例来说,有人会给一些感情上的问题。这个 point 是放在 Turing Advice Challenge paper 里面的例子。有一个人说,她男朋友跟她交往 8 个月,然后有一天她男朋友要给她一个生日礼物,她男朋友就把所有的朋友都找齐,然后秀出了他的背,他的背上有一个他女朋友的脸的刺青,而这个女生会觉得不太行,问怎么办,期待网友给一些建议。

在这个问题上,GPT 建议分手。对机器而言,要给出像样的建议不太容易。

UUID: 32feddeb-514e-4d89-b79c-96cc23982de4

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-03-25_听李宏毅点评GPT-3:来自猎人暗黑大陆的模型.txt

是否为广告: 否

处理费用: 0.0079 元