谷歌的软件工程师Blake Lemoine坚信谷歌2021年推出的对话应用语言模型LaMDA拥有七八岁孩童的智力,并相信它已经变得有意识和灵魂,不仅认为自己是一个人类,且要争取自己作为一个人的权利。Lemoine对外释出了自己与LaMDA的问答,试图佐证这一点。然而,专家表示,LaMDA本质上仍是个“应答机”,并不理解问题本身。人们不自觉开始想象一些恐怖的场景,同时又对此欲罢不能。
但抛开这些,该如何理解“AI产生了意识”这个故事?LaMDA是一种语言模型,和我们常用的语音识别、机器翻译等功能师出同门。不过相对于回答清晰的问题,或者给机器一整段文字翻译,LaMDA处理的是语言模型中最复杂的部分——开放域对话。人类的对话总是天马行空,我们可以从中午吃了么,一路从食物种类、粮食危机、聊到马里亚纳的海沟有多深。这种话题发散,不知会从哪里结束的对话方式,是人类的日常,机器的噩梦。
而LaMDA基于的Transformer模型,则可以解决机器只能一板一眼说话的状态。简单来说,Transformer让机器可以读懂上下文,并记住此前对话的任意位置。LaMDA可以读懂上下文,并记住此前对话的任意位置。为了达到目的,谷歌建立了一个打分机制(SSI分数),在保证安全性的基础上,从三个维度评价LaMDA生成对话的质量:合理性、特异性、趣味性。
在每次“回答”前,LaMDA会生成好几个候选回应,得分最高的回应才会最终呈现给人类。此外,与人类对话时,LaMDA还引入外部信息检索系统,通过真实世界的检索理解和回应这场对话。这让LaMDA的回答更基于真实世界的信息,甚至还可以比你先知道最新的消息。LaMDA的规模最大可达到1370亿参数,和1750亿的GPT-3在同一量级。
它的训练与数据包含1.56T单词,其中包括50%的公开论坛聊天记录,12.5%的编程论坛问答贴,12.5%的C4数据集(经过清洗的英语文本),12.5%英文维基百科页面,6.25%其他英文网页,6.25%其他语言网页。如同一个人不吃不喝,从诞生那天起就开始整日盯着网络上人类所有的聊天记录和论坛信息。
一次,LaMDA“扮演”了冥王星,同Google团队开聊后,AI显得非常自如,回答说“如果要来旅游记得穿得暖和点,因为我这里特别冷”,至于被问到“有没有人访问过冥王星”,AI也能答出准确的事实。“扯淡”,这几乎是AI业界的共识。“AI是否拥有了自主意识?”这一直都是AI界争议不休的话题,但此次因为谷歌工程师和LaMDA的戏剧性故事,扩大了讨论范围。
事情发酵后,谷歌将那位工程师停职,并做出回应:公司已经对LaMDA这个超大规模语言模型做了多次严格审核,包括内容、质量、系统安全性等方面。还在之前发过的开发论文里强调,“在AI界,人们对具备感知的AI和通用人工智能有研究,但就当下,把对话AI模型拟人化没有意义,因为它们并无知觉。”专家:它本质上仍是个“应答机”。“这简直是在胡说八道!
”知名机器学习和神经网络专家Gary Marcus表示,“LaMDA和GPT-3等同类模型,都没那么智能,它们就是在人类语料库里提取字眼,然后匹配你的问题。”比如说,你向GPT-3输入“狗有几只眼睛”,它能准确回答,但如果是问“脚有几只眼睛”,它一样会报出一个数字,它总会生成结果,哪怕有悖常识。这也就说明,它目前本质上就是个“应答机”。这些都恰恰证明:它并不理解问题本身。
“人类可以根据明确的规律学习,比如学会一元二次方程的三种形式以后就可以用来解各种题目;见过了京巴、柴犬之后,再见到德牧就知道它也是一种狗。然而深度学习不是这样的,越多的数据=越好的模型表现,就是深度学习的基本规律,它没有能力从字面上给出的规律学习。”Marcus多次“泼冷水”。
清华大学人工智能研究院院长张钹也表示深度学习“没有那么玄”:“深度学习是寻找那些重复出现的模式,因此重复多了就被认为是规律(真理),因此谎言重复一千遍就被认为真理,所以为什么大数据有时会做出非常荒唐的结果,因为不管对不对,只要重复多了它就会按照这个规律走,就是谁说多了就是谁。”“具有知觉(sentient)的意思是,意识到你在这个世界里的存在。LaMDA并没有这样的意识。”Marcus说道。
专家:是你自己代入了好吧!最近几年,人们热衷用AI作画、做音乐,但创作并非完全AI“全自动”,人类需要一开始就干预,比如先写好描述词,先谱写几个音符。而在LaMDA这个案例中,作者的“问法”也值得推敲。Lemoine曾邀请《华盛顿邮报》记者去他家亲自和LaMDA谈谈。初次尝试时,记者得到的是类Siri的机械化反应。
当他问“你是否认为自己是一个人类”时,LaMDA回答:“不,我不认为自己是一个人,我认为自己是一个人工智能驱动的对话代理。”这时,在一旁的Lemoine解释,“你从来没有把它当做一个人来对待,所以它就认为你想让它作为一个机器人出现。”Marcus也点出了人们误以为“AI有意识”的原因,简单来说,就是他们自己代入了,就像人们也会把月球上的陨石坑看成人脸一样。也有人在对话AI上寄托了感情。
2012年,Jessica在等待肝脏移植过程中病情恶化,随后死亡,其未婚夫还没赶到。他错过了死别,自责了八年。直到2020年,他看到了“Project December”,这个网站提示只要填写“语句样例”和“人物介绍”,就能生成一个定制版的聊天AI。
Joshua将亡妻生前发过的短信等文字信息导入网站,接着他开始描述Jessica:生于1989年,是生性自由的天秤座……还特别迷信……页面刷新后,“Jessica”准备就绪,她能回答Joshua所有的问题,甚至还会用文字描述她“正用手捧着脸说话”。Joshua说:“理智告诉我这不是真正的Jessica,但感情不是理智所能左右的。
”另外,专家们甚至怪罪早期AI研究员的赋名习惯,用“学习”、“神经网络”、“语言建模”这些拟人化名称,人们听了难免会产生错觉。专家:只看结果,并不能说明AI有多智能。近年来,不少人开始批判诞生70年的图灵测试,其中一个理由是:图灵测试只看机器的输出,并不够严谨。暴力算法机器(brute force machines)因为被猛灌数据,有可能就能骗过去了。
美国哲学家John Searle在上世纪80年代就提出“中文房间问题”,反击图灵测试。Searle设计的实验里,有一个对中文一窍不通,只说英语的人,他被关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语讯息,以及如何以汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。
房内的人便按照手册的说明,查找合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。就这样,房间里的人递出了“正确”的回答,屋外的人会相信他一定通晓中文,但事实正好相反。既然计算机没有理解能力,所谓“计算机有智能”便更无从谈起了。但直到现在,人们仍然将AI视为黑箱,它们需要大量的数据,而且不可解释。
张钹表示,“深度学习的本质就是利用没有加工处理过的数据,用概率学习的黑箱处理方法来寻找它的规律,它只能找到重复出现的模式,也就是说,你光靠数据,是无法达到真正的智能。”专家:AI具有意识?还远着呢。上世纪70年代和80年代,AI研究因为研究深度不够,通用性不高,政府因而收缩资金支持,于是AI迎来了两次“寒冬”。
就在AI慢慢沉寂,变成“隐学”的时候,Geoffrey Hinton、Yoshua Bengio和Yann LeCun三位学者默默开始了AI的一个重要分支——神经网络——的研究。终于在几十年后,他们等来了属于深度学习的时代。互联网和移动端的兴起让海量的数据唾手可得,而计算机硬件在人类一次又一次挑战着纳米世界的极限中,顺着摩尔的预言一路狂奔。
2012年,深度学习暴得大名,因为Geoffrey Hinton基于卷积神经网络的AlexNet以惊人优势赢下ImageNet视觉识别挑战赛。另外在这个实验中,人们发现,只有图像的样本量够大,隐层够多,识别率就能大幅提高,这极大地鼓舞了学界和企业。
2016年3月,透过自我对弈数以万计盘进行练习强化,AlphaGo在一场五番棋比赛中4:1击败顶尖职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序。但近年来,不少专家不再那么乐观,“目前基于深度学习的人工智能在技术上已经触及天花板,此前由这一技术路线带来的奇迹在AlphaGo获胜后未再出现,而且估计未来也很难继续大量出现。”张钹说。
就算财力和算力仍在不断投入,但深度学习的回报率却没有相应的增长。“我们越早意识到LaMDA的话都是胡扯,这只是带有预测性文字工具的游戏,没有真正的意义,我们就会过得越好。”Marcus表示。2022年了,深度学习领军人物Yann LeCun说出了一个让人失落的结论:人工智能依然没有达到猫的水平,尽管猫只有8亿个神经元。
猫和人类的共同基础是对世界高度发达的理解,基于对环境的抽象表征,形成模型,例如,预测行为和后果。“能否体验到自我的存在”,这是哲学家Susan Schneider对于“意识”是否存在的判定标准,当AI能感受到自我的存在,就会对这种存在产生好奇,进而探寻这种存在的本质。那么,如果把LaMDA看过的资料里,完全剔除掉和“意识”沾边的相关讨论,它是否还能表达出自己的想法呢?