ChatGPT:今天你被忽悠了吗?

作者: 原人团

来源: 深原质药

发布日期: 2023-03-12 07:00:59

ChatGPT是OpenAI发布的一款人工智能聊天机器人,它在短时间内获得了巨大的用户基础,并因其能够生成各种文本内容而受到广泛关注。然而,尽管其表现出色,ChatGPT并非完美无缺,它在处理复杂或专业问题时可能会出现“一本正经地胡说八道”的情况。文章详细探讨了ChatGPT的工作原理,包括其预训练、微调和强化学习的过程,以及它如何通过代码训练提升逻辑性。此外,文章还讨论了ChatGPT在蛋白质研究等科学领域的潜在应用,以及它作为一种复杂的概率统计工具的局限性。

如果你还没有听说过ChatGPT,那么你的生活距离科技就真的有点远了。自从OpenAI发布了ChatGPT之后,它在短短2个月内就拿下了月活跃用户1亿的成绩,破了TikTok用时9个月的记录,更是远远甩开了其他应用。大家如此着迷,自然与ChatGPT的“神奇”表现有关。它不仅能陪你聊天,还能写出像模像样的文章,甚至能帮你谋划如何开店,以及编程、写诗和谱曲。

但是,ChatGPT并非像大家想象的那么“智能”。几乎所有领域的专业人士进行的深度测试都表明,这个AI非常擅长“一本正经地胡说八道”。

关于AI有很多定义与标准,但是“能够与人类对话”似乎是一个绕不过去的门槛,是检验AI智能程度的重要标准,更是公众能够理解与接纳AI的必要条件。为此,AI科学家与工程师们付出了艰辛的努力,并且早就取得了一定的成果。

当你让智能手表帮你设定闹钟,或让智能音箱向你报告天气时,都是AI程序在聆听你的指令,并做出相应的回答。但是这些AI算法的水平实在不敢恭维。要不就是听不懂你的指令,要不就是被调皮的小朋友们玩坏。说到底,你不会认为它们有“智能”。虽说水平有限,但是这些努力的确建立了一套用AI处理人类语言的技术框架。

既然无法准确计算每组词元出现的概率,我们就希望找到一种方法能很好地对它们进行估计。

一种常用的数学方法就是曲线拟合。具体来说,我们要定义一个函数,再对它的参数进行优化,使其能够最大程度接近所有语言样本。在深度学习中常常提到的神经网络,其实就是上述这个函数。所谓的“学习”过程,其实就是对神经网络参数的优化过程,是让函数向训练样本不断贴近的过程。

如今大放异彩的ChatGPT是一个基于Transformer的解码器,这个神经网络模型是一个所谓的超大模型,其基础是一个含有1750亿个参数的复杂非线性函数,并利用它对不同长度的词元组在自然语言中出现的规律进行估计。

很多人以为ChatGPT有着革命性的技术创新。然而太阳底下并没有新鲜事。所有科学技术的进步都是站在前人的肩膀上完成的。ChatGPT也不能例外。

ChatGPT的利器有三:预训练、微调,以及强化学习。这些对于通晓AI的人来说都不是什么新概念。此外还有一个近年发现的额外帮手:代码训练。预训练是与“迁移学习”这个概念伴随而生的。简单来说,就是在某一类任务数据上训练出来的AI模型,用来处理另一类任务数据。这事儿的的效果肯定不会一上来就很好,但是省去了重新训练一个大模型的麻烦。

强化学习是当今很多AI模型能够取得成功的重要秘诀,对于ChatGPT来说同样如此。虽然强化学习这个说法并没有出现在GPT中,但它却是ChatGPT能够取得质变的关键点之一。以自动控制论的角度来看,强化学习就是在系统中形成了一个“闭环”,把输出结果与最优结果之间的差异反馈到系统中,从而调整下一次的输出,让它更加逼近最优结果。

不过,对于一个工业自动化系统来说,结果的差异性都是一些数值,比如空调的反馈就是温度;可是对于一个输出语言的系统来说,要如何构建这个差异值呢?OpenAI再次祭出了“标注大法”,也就是由标注人员(据称有上千人)对ChatGPT的回答进行排序打分。

在深度学习中常常提到的神经网络,其实就是上述这个函数。所谓的“学习”过程,其实就是对神经网络参数的优化过程,是让函数向训练样本不断贴近的过程。

如今大放异彩的ChatGPT是一个基于Transformer的解码器,这个神经网络模型是一个所谓的超大模型,其基础是一个含有1750亿个参数的复杂非线性函数,并利用它对不同长度的词元组在自然语言中出现的规律进行估计。并不新鲜的“新鲜事”很多很多人以为ChatGPT有着革命性的技术创新。然而太阳底下并没有新鲜事。所有科学技术的进步都是站在前人的肩膀上完成的。ChatGPT也不能例外。

蛋白质是一种语言吗?2001年,人类基因组计划的工作草图宣布完成。这一成果极大地鼓舞了研究蛋白质结构的结构生物学家们。各国相继立项了一批“结构基因组计划”,旨在解析得到某一种生物的全部蛋白质三维结构。然而,现实是残酷的,结构研究直至今天也没有真正的批量化方法,没有办法像测序那样扔进一台机器里就能拿到结果。

所以,这些结构基因组计划全都半途而废了,并且在一定程度上催生了可以预测蛋白质结构的AlphaFold等一众AI算法。

ChatGPT的火热,也再次催动了AI的发展,特别是深度生成相关算法的发展。科学家们也希望将ChatGPT的成功延伸到其他的科学领域中,比如蛋白质的相关研究。蛋白质的化学本质是一条条的氨基酸链。

如果以20个字母代表20种组成蛋白质的氨基酸,那么蛋白质就变成了一句话,里面有20种字母反复出现。下图就是广泛存在于我们所有细胞中的泛素蛋白的氨基酸序列。这看起来似乎很适合使用语言模型来进行处理。比如我们可以让一个预训练的ChatGPT在蛋白质序列的数据集上进行微调,是不是就能设计生成新的蛋白质了呢?

UUID: 3e311cf0-b7b4-4939-a671-71ff904c67ac

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/科学大院公众号-pdf2txt/2023年/科学大院_2023-03-12「转」_ChatGPT:今天你被忽悠了吗?.txt

是否为广告: 否

处理费用: 0.0099 元