深度|阿法狗们会取代人类吗?

作者: 黄文政

来源: 澎湃新闻

发布日期: 2016-03-10

阿法狗(AlphaGo)在与李世乭的围棋对弈中取得胜利,标志着人工智能在围棋领域的重大进展。围棋被认为是一种复杂的棋类游戏,阿法狗的成功引发了关于人工智能是否会取代人类的讨论。文章探讨了围棋的可破解性、阿法狗的算法及其与人类棋手的差异,并分析了人工智能与人类智能的不同之处,尤其是在感性与理性行为方面的差异。尽管人工智能在某些领域表现出色,但要完全超越人类智能仍面临许多挑战。

昨日下午,阿法狗(AlphaGo)与韩国著名棋手李世乭五盘棋比赛的第一局在韩国首尔四季酒店举行,经过3个半小时的对弈,Deepmind公司开发的人工智能“阿法狗”以186手,执白中盘战胜李世石。2016年1月27日,《自然》期刊以封面论文的形式,介绍了谷歌公司研发的这种能与专业棋手对弈围棋的人工智能程序——“阿法狗”的算法。论文称,阿法狗于去年10月,以5:0的成绩战胜了欧洲围棋冠军樊麾。

而且,阿法狗将于3月份在首尔挑战过去十年被认为是世界围棋冠军的李世乭;比赛一共5轮,时间分别为9日、10日、12日、13日和15日;获胜者将获得100万美元的奖金。早在1997年5月11日,IBM公司研发的“深蓝”超级计算机就击败了国际象棋世界冠军卡斯帕罗夫。但发明逾2500年的中国围棋远比国际象棋复杂,在搜索的广度和深度上被认为是人类发明的最复杂的棋类游戏。

因此,阿法狗战胜顶尖围棋手的消息震惊了围棋界,也被誉为人工智能的重大进展。而今年3月的棋局更是激起了人们的好奇心,也再次掀起有关人工智能前景的讨论。

那么,人工智能战胜人类棋手是否必然?阿法狗是如何下棋的?阿法狗与李世乭对弈的胜算如何?人工智能与人类是否存在本质差异?人工智能是否可能取代并最终消灭人类?

一、围棋是可破解的游戏

笔者在念小学时曾尝试过一种简单的虎豹棋,玩了不久后就发现先行方可找到一种策略保证赢棋。当时的困惑是,是否其他确定性棋类游戏也一定存在类似的策略呢?在博弈论中,如果两方对弈的确定性棋类游戏中的一方能找到保证自己不输的策略,这个游戏被称为“已破解”。根据此定义,前面提到的虎豹棋可被简单破解,而很多其他较简单的棋类游戏也已破解。

比如,加拿大阿尔伯塔大学计算机游戏专家Jonathan Schaeffer于2007年7月破解了西洋跳棋。他的做法是把西洋跳棋的对弈分成各种可能步骤,并做归类,然后使用50到200台个人电脑,花费18年时间用穷举法检验所有可能步骤。

那么,任何一种两人对弈的确定性棋类游戏,是否都是可破解的呢?更准确地说,在一个规则明确、棋局有限、信息完全、确定性的两方对弈的棋类游戏中,是否有一方一定可找到一种策略,在任何情况下都能保证不输棋呢?从直觉来看,这个结论应该是正确的。实际上,德国数学家Zermelo在1913年就证明了上述结论,他的证明在1997年被翻译成英文。由于Zermelo的证明比较艰涩,我们下面从另一种思路来简述推理。

考虑A、B两方对弈,我们把双方棋子在棋盘上呈现的形势称为棋局。以围棋为例,形象地说,一个棋局就是棋盘上棋子所呈现的一个画面。我们把轮到A下的棋局称为A型,轮到B下的棋局称为B型。那么A、B双方的对弈则是A型中的棋局与B型中的棋局之间的来回切换。对A型中的一个棋局来说,在规则允许下所能下的每一步棋都对应于B型中的一个棋局。我们可以把B型中所有的棋局分成三类:

1)“A赢”——已经确定A赢棋。

2)“不确定”——已经确定和棋或者还不知道哪方会赢棋。

3)“B赢”——已经确定B赢棋。这个分类是基于对游戏的当前认知做出的。现在假想我们可以用一个计算能力无限的超级计算机,以递归方式来深化对游戏的认知。在初始状态下,B型棋局中的“A赢”、“B赢”两类只包含那些按规则判断是明显的A赢或B赢的棋局,而“不确定”类则包含B型中其他所有棋局。但随着递归过程不断深化对游戏的认知,“A赢”和“B赢”两类会逐步扩大,而“不确定”类会逐步缩小。

对游戏认知的深化体现为越来越清晰地确定哪些是“犯错”,因而可以被排除的步子。在对弈中,棋手的每一步面临一种或多种选择,所谓“犯错”的步子是:1)有确定赢的步子但却没有走;或2)在有其他选择时却走了确定会输的步子。如果假设A和B都是不会“犯错”的棋手,那么在递归过程中,可以不断排除那些“犯错”的步子。回到前面B型棋局的初始分类,我们可根据A的下一步对应的B型棋局类别,将A型棋局分类如下:

1)“A赢”——下一步对应的棋局中至少有一个落在B型中的“A赢”类。在A不会“犯错”的假设下,可以排除那些切换到B型“不确定”和“B赢”两类的步子。

2)“不确定”——下一步对应的棋局中没有一个落在B型中的“A赢”类,但至少有一个落在B型中的“不确定”类。在A不会“犯错”的假设下,可以排除那些切换到B型中的“B赢”的步子。

3)“B赢”——下一步所有棋局落在B型中的“B赢”类。

以上述方法排除那些“犯错”的步子之后,A型中的“A赢”类棋局的下一步只能切换到B型中的“A赢”类棋局;A型中的“不确定”类棋局的下一步只能切换到B型中的“不确定”类棋局;A型中的“B赢”类棋局的下一步只能切换到B型中的“B赢”类棋局。

然后,根据下一步在A型棋局的类别,再把之前B型中的“不确定”类棋局进一步划分为“A赢”、“B赢”和“不确定”这三类,并把新划出的“A赢”与之前的“A赢”合并为新的“A赢”类,新划出的“B赢”与之前的“B赢”合并为新的“B赢”类。这样“A赢”类和“B赢”类扩展了,而“不确定”类则缩小了。

由于棋局数量有限,可以按递归方式在A型和B型棋局之间不断重复上述过程,直至无论在A型还是B型棋局中,“A赢”、“B赢”、“不确定”三类都稳定下来。下面讨论所指的类别是指这种最终稳定后的类别。

在用上述递归方法排除“犯错”的步子后,对弈过程在A型棋局和B型棋局之间的切换只会在对应的类别之内进行,即A型中“A赢”类棋局的下一步只会切换到B型中的“A赢”类;A型中“B赢”类的棋局的下一步只会切换到B型中的“B赢”类。B型中“A赢”类棋局的下一步只会切换到A型中的“A赢”类;B型中“B赢”类棋局下一步只会切换到A型中的“B赢”类。B型中“不确定”类棋局下一步只会切换到A型中的“不确定”类。

由于“不确定”类的棋局不可能切换到任何一方赢棋的类别中去,因而也可以称之为“和棋”类。因此,不管A还是B先行,最初的棋局一定在最终的“A赢”、“B赢”、“和棋”这三个类别之一。这意味着,A和B中有一方可以确保,即使对方不犯错,自己也能不输棋。由此还可以进一步证明,A和B中有一方可以确保,不管对方如何应对,自己也能不输棋。即,任何一个两方对弈、信息完全的确定性棋类游戏都是可以破解的。

围棋是一种规则明确、信息完全、确定性的两人对弈的游戏。围棋棋盘只有19*19个落子点,而每个落子点只可能呈现黑子、白子、空白三种状态,所以围棋最多只有3^(19*19)种可能的棋局,因此也是一种棋局有限的游戏。根据Zermelo定理或我们上述的证明简述,围棋是一种可破解的游戏。即,围棋中必有一方拥有不败策略,不管对方如何走,都能确保自己赢棋或者和棋。

这意味着,如果计算机有无限的计算能力,那么计算机就可以为对弈中的一方找到这种不败策略,让对方在任何情况下也无法赢棋。

但是,围棋可破解,并不意味着它像西洋跳棋那样能够被破解。这是因为围棋的搜索空间远比西洋跳棋要大。

比如,在8*8的棋盘和24个棋子的情况下,西洋跳棋共有10^20种可能的棋局,而且由于很多棋局可被视为等价,破解者Jonathan Schaeffer只需要进行了10^14次计算就能找到破解算法。相比之下,即使去掉不符规则的棋局,围棋的棋局数量也达到0.01196 * 3^(19*19) = 2.081682*10^170,这也要远远大于整个宇宙的所有原子的数量的估计数10^80。

相比之下,国际象棋仅有10^47种棋局,而西洋跳棋仅有10^20种棋局,都要远远低于宇宙中的原子数量。这说明使用类似于Jonathan Schaeffer破解西洋跳棋的穷举法根本不可能破解围棋。

二、阿法狗是如何战胜欧洲围棋冠军樊麾的?由于围棋搜索空间的广度和深度远超过任何计算机的处理能力,很多人认为计算机战胜专业围棋手将遥不可及。

甚至有人认为,围棋的顶尖水平需要哲学甚至艺术思维,不可能被计算机掌握。在阿法狗登场之前,人工智能围棋程序的最高水平也仅与业余棋手相当,要战胜专业棋手被认为至少是10年以后的事情。因此,阿法狗以五战五胜的成绩战胜欧洲围棋冠军樊麾,让很多人对人工智能刮目相看。

特别是,包括2016年1月5日获梦百合杯世界围棋公开赛冠军的柯杰在内的许多专业棋手,在观察对弈棋谱之后认为,与之前的围棋程序不同,阿法狗下棋风格与人类无异。如果隐去对弈者的识别信息,根本无法判断对弈双方哪个是阿法狗,哪个是樊麾。这说明,阿法狗模仿了人类的思维方式。那么阿法狗是如何做到这点的呢?

根据《自然》期刊论文的介绍,阿法狗使用了两种深度学习神经网络,即“策略网络”和“价值网络”。

深度学习神经网络是近年人工智能领域的热门,在笔迹识别、自动驾驶、自然语言理解、图像和语音处理等方面都极为成功。在人工智能领域,神经网络是一种模拟生物神经系统的模型,由许多单向连接的神经元组成,可将输入信号转换为输出信号;具体如何转换取决于链接神经元的各种参数。神经网络的学习就是根据训练样本不断更新参数的过程。

比之一般的神经网络,深度学习神经网络使用隐含的多层复杂结构,以及非线性变换,来表达对数据的高度抽象。这些特征更接近于生物大脑,也因此更容易实现人类大脑的某些功能。

围棋的搜索空间可由广度和深度来表示。搜索广度是指在当前棋局下的下一步落子的范围,而搜索深度是指未来的步数。由于不可能穷举搜索空间,围棋程序本质上都在追求缩小搜索空间的广度和深度。

阿法狗的“策略网络”负责减少搜索的广度——针对当前棋局,判断下一步该在哪里落子,判断结果表述为落在不同位置的概率;阿法狗的“价值网络”则负责减少搜索的深度——对每一个棋局,判断赢棋的概率;根据未来棋局的赢棋概率来决定是否需要继续搜索下去。阿法狗采用“蒙特卡洛树搜索”算法将“策略网络”和“价值网络”综合起来决定走哪一步。阿法狗的决策方式与人类相似。

“策略网络”类似于战术大脑,负责短程思考,学习高水平棋手的一些基本功,用相对“局域和短期”的视角来决定下一步落子的大概位置;“价值网络”则类似于战略大脑,负责长程思考,学习如何判断未来各种棋局的赢棋的几率,用这种判断来快速思考各种落子选择会遇到何种局面。

而“蒙特卡洛树搜索”算法类似于围棋中的“长考”,即根据当前棋局,确定自己可能的步子,再在假想状态下演绎双方对弈的可能性较大的路径,最终选择在假想演绎中赢率最大的步子。那么“策略网络”这个“战术大脑”是如何学习的呢?论文描述了两种学习方法:“监督训练”:类似于专家手把手训练“战术大脑”。训练样本是3000多万个棋局和专家的相应棋步,训练目标是让“战术大脑”选择的步子尽量接近专家的棋步。

“策略网络”的13层结构便于将棋局表达成具有各种抽象概念之间的关系,能较好地模拟专家的思维。由于搜索空间中可能性棋局太多,“策略网络”只能将棋局信息压缩到一个较小的表达空间上,而这个空间未必足以充分反映棋局的各种细节。

“强化训练”:类似于让经过了“监督学习”的初学者之间相互对弈来提高棋艺,即让“策略网络”自我对弈来改进“战术大脑”。

如果说“监督学习”的目标是让“战术大脑”下得尽量像专家,那“强化学习”的目标则是不断提升“战术大脑”在对弈中的赢棋概率。在这种学习过程中,那些从“监督学习”中获得的有助于在实战中赢棋的思维倾向得到强化。需要注意的是,专家的“长程思维”不是直接反映在“策略网络”的训练输出上,而是通过“策略网络”的多层结构中某些神经元所代表的概念,或者“强化训练”中对棋步选择带来的最终输赢的奖惩来得到间接体现。

因此,经过“监督学习”训练出来的“策略网络”在实际对弈中因未直接接受“长程思维”的训练而比较短视,还可能因为遗漏某些细节而会下出一些“抽风”的棋步。

不同于之前人工智能围棋程序的是,阿法狗使用“价值网络”这个“战略大脑”来直接反映“长程思维”。“价值网络”的结构类似于“策略网络”,输入信号是各种棋局,但输出的是该棋局自己一方最终赢棋的概率。

如果说训练“策略网络”是为了让“战术大脑”通过模仿专家自我对弈来学会下一步落棋子位置的相对概率,训练“价值网络”则是为了训练“战略大脑”来对不同棋局估算赢输几率。“价值网络”的训练样本来自“强化训练”出来的“策略网络”自我对弈的各种棋局以及赢输结果。除了使用“价值网络”的“战略大脑”外,阿法狗还通过“随机滚示”来估算棋局的赢率。

一次“随机滚示”是指,对弈双方按训练出的“战术大脑”的概率,随机选择棋步进行对弈直至结束。面对特定棋局时,一方赢棋的概率可以用多次“随机滚示”中该方最终赢棋的频率来估算。为了节省时间,“随机滚示”使用“战术大脑”是精简版的“策略网络”,其模仿专家的准确度要比完整版的“策略网络”低,但速度要远快于完整版。在实战“长考”中,阿法狗使用“价值网络”和“随机滚示”两种估算的加权平均来判断棋局最终赢输几率。

实战模拟显示,这种判断比单独使用“价值网络”或“随机滚示”的估算更能提升阿法狗的棋力。原因是这两种估算是互补的:“价值网络”估算了强但慢的“策略网络”的对弈结果;而“随机滚示”则估算了弱但快的“策略网络”的对弈结果。

在实际对弈时,阿法狗采用“蒙特卡洛树搜索”的“长考”方式来决定在哪里落子。具体来说,就是综合“短程思维”和“长程思维”来搜索并分析各种较可能的对弈路径,确定最好的棋步。

这相当于人类棋手在面向当前棋局时,考虑自己最可能要下的棋步,以及对方相应要下的棋步,并依此演绎下去。路径搜索树的顶端节点是当前棋局,下面每一条边是一个可能的棋步,之下则是该棋步对应的棋局。阿法狗在“长考”过程中,对每个可能选择的棋步计算“行动价值”;所谓“行动价值”是指采用“价值网络”和“随机滚示”两种方法对相应棋局输赢几率估算的加权平均。

“行动价值”会加上一个“奖励项”,该奖励项与该棋步被“策略网络”选择的概率成正比,但随该棋步在“长考”中被遍及的次数递减,以鼓励“长考”探索不同棋步。树的搜索过程会选择“行动价值”加上“奖励项”得值最大的步子。然后,在相应棋步的子树下进一步扩展,并使用子树各节点的估算来更新上个节点的“行动价值”,得出对赢率更精确的估算。在大量重复上述树搜索过程的基础上,阿法狗将选择在搜索中遍历次数最多的步子。

阿法狗这个“长考”过程相当于,根据对赢输几率的判断,不断演绎未来双方可能的棋步,并在这种演绎中对不同棋步的输赢几率得出更准确的判断,最后选择最有可能赢棋的棋步。

三、阿法狗会赢李世乭吗?由于阿法狗并非对棋局进行精确判断和搜索,而是根据专家棋谱学习基本棋步并在此基础上通过自我对弈来提升棋力,这些算法所涵盖的空间虽然非常大,但依然只是可能性空间中的极小一部分。因此,李世乭赢阿法狗的可能性还是存在的。

在首局中,李世乭或许应该把阿法狗当成正常的人类对手来对弈。如果李赢得首局,那说明阿法狗现有算法构成的搜索空间依然不足以涵盖人类顶尖围棋手的思考范围,在后续对弈中李可采用相同的策略。但如果李输掉首局,那说明他的对弈策略已经落入了阿法狗的搜索范围,因此李世乭需要独辟蹊径才可能在后几局中反败为胜。

由于在对弈中选择的是赢棋几率最大的棋步,阿法狗的风格会趋于保守,偏向于选择那些最终赢棋概率较大,但所赢目数较少的棋步。而且,阿法狗在“长考”中会较多演绎那些最优或者较常出现的步子。因此,在输掉首局的前提下,李世乭或许可在后面的对弈中侧重于“长考”一些通常情况下不太选择的棋步。

阿法狗给人留下的深刻印象之一是,它可以每天自我对弈上百万次来提高棋力,这种训练力度让人类棋手叹为观止。

但在现有框架下,不断训练给阿法狗带来的棋力提升效果受制于三个因素。首先,围棋的棋力未必能充分地表达为“策略网络”的短程大脑和“价值网络”的长程大脑。比如,围棋高手对棋局平衡的感觉或许就难以在框架中得以体现。其次,“策略网络”未必能充分反映短程大脑,“价值网络”也未必能充分反映长程大脑。

如果这两个深层神经网络本身不能表达出某些细节,即使训练无穷次给出最好的参数估计,这两个网络本身也不能完全表达“完美”的“短程大脑”和“长程大脑”。再者,训练的最初样本是专家的3000万个棋局,这些棋局本身未必能充分反映各种对弈可能,而可能偏离实际对弈时对手的棋风。当然,阿法狗可将李世乭的历史棋谱作为部分样本来专门提升其针对李赢棋的概率。

因此,如果这次在比赛中输给了李世乭,阿法狗在未来要反败为胜可能还需要进一步改进框架,而不能指望只对算法进行更多的训练。当然,增加深层网络的层级和神经元的数量或许也会有帮助。

阿法狗与李世乭的比赛激起了很多人的猜测与好奇心。笔者所在的一个微信群针对比赛结果有一个象征性的对赌,参与者可以两边押注。

到2016年3月9日上午9点25,有56注押阿法狗赢,57注押李世乭赢,一注押某方全赢或全输,另一注押双方互有输赢。值得一提的是,假如双方势均力敌,任何一方赢的概率是0.5,且各次对弈的结果相互独立,那在5轮对弈中,一方全赢或者全输的概率是2*0.5^5 = 0.0625,而互有输赢的概率是0.9375。

如果各轮对弈结果是独立的,那么一方赢输概率要达到6.725:1才能让全输全赢的概率上升到0.5。此外,如果各次输赢是关联的,即使双方势均力敌,一方全赢或者全输的概率也不会是0.0625。所谓关联是指,某次对弈的输赢概率不仅取决于双方的水平,还取决于前次对弈的结果。一个典型的例子是,在人类对弈中,前轮输棋可能会导致棋手情绪紧张,因而发挥更差。

如果对弈双方都是机器,且机器程序不根据前轮比赛结果进行调整,那可以假设各次对弈结果相互独立。现在一方为阿法狗,另一方是人类棋手李世乭。假设阿法狗的程序不会根据前轮对弈结果进行调试,那本轮对弈和前轮对弈结果的关联性将只会来自李世乭的情绪反应和策略调整。比如,李世乭输了第一轮后,情绪紧张可能导致更容易输掉第二轮,或者他调整策略提升了赢棋概率。

总之,既有因素促使各轮对弈结果正相关,也有因素促使各轮对弈负相关。对弈结果正相关会提升一方全赢全输的概率,而负相关将会提升双方互有输赢的概率。

由于达到阿法狗围棋水平的人工智能新近才出现,我们无法获得机器与人类之间这类比赛的、具有可比意义的输赢记录,因此也难以根据背景数据对阿法狗和李世乭比赛的输赢几率做出合理估算。不过,谷歌作为一个商业公司,参与研发人工智能围棋程序应该会有自身的考量。

从这个角度来思考或许有助于判断阿法狗对李世乭比赛的战局。从论文报道来看,阿法狗的程序设计和对弈水平在不断提升。在决定让阿法狗与李世乭进行比赛之前,阿法狗与人类棋手应该进行过多次实战,谷歌对阿法狗的水平应有一个大致判断。从公关角度来考虑,谷歌让阿法狗挑战李世乭的最好时机是,阿法狗水平接近但略低于李世乭,而且在可预见的将来能够超越李世乭。

这样,阿法狗输掉最初的比赛,将给公众留下巨大的悬念并能最大限度地吸引公众的关注。之后,进一步提升阿法狗的棋力,在未来第二或第三次比赛中以各轮皆赢的成绩战胜人类顶级棋手,留给公众人工智能技术进步神速的印象,激发人们对人工智能的热情,并同时塑造出谷歌不遗余力地追求人类智慧极致的形象。

四、人类智能与机器有哪些不同?不管这次比赛结果如何,人工智能战胜人类最强围棋手只是时间问题。

那么这是否预示着机器最终将超越人类智力呢?图灵测试是判定机器是否具有人类智能的手段之一。一台机器通过图灵测试是指,它能够与人类以文本传输方式进行对话而不被辨别出其机器身份。这个测试的核心是判断机器能否像人类那样理解、思考和回答问题。很多专业围棋手在观察了阿法狗与樊麾的对弈棋局后都觉得无法判定对弈双方谁是阿法狗,谁是樊麾。

对此,曾获得北京市大学生围棋冠军的王烁就认为在围棋方面,阿法狗通过了他的图灵测试。当然,这只表明机器在特定范围内的行为与人类相似,这与广泛意义下的人类智能还有天壤之别。从外部来看,我们可以把人工智能机器甚至个体的人都看成一个刺激-反应的黑盒子。所谓刺激是机器或人接受的输入信号,而反应则是输出行为。

目前人工智能擅长的大都是那些输入的信号数据结构化、行为目标明确的问题。

比如,阿法狗读取的输入数据就是19*19棋盘上的棋局,作出的反应是下一个棋步,目标则是赢棋。又如,图像识别程序读取的是数字化图像文件,作出的反应是判定图像的某些属性,目标是让判定的属性与尽量接近预设的属性。再如,自动驾驶程序读取的是各种传感器反映的速度、方向、压力、影像等信号,作出的反应是方向和用力等矢量值,目标是让汽车到达目的地,不发生事故并尽量节省能源。这类问题大都可通过训练机器来解决。

通常做法是大致确定机器黑盒子的内部结构,用结构的参数来表达机器所处的认知状态,然后使用大量的刺激-反应数据来训练参数。在这个意义下,训练可被视为是在参数空间的搜索。因此,人工智能的发展表现为如何确定黑盒子的结构,有效地压缩搜索空间,提高搜索效率。这个通常称为有监督的学习。

但是,人类智能并不局限于这类刺激信号结构化,反应目标明确的问题。简单来说,人类智能可概括为理解世界是什么样子以及会如何变化,并通过自身的反应来适应。这表现为通过特征抽取和概念化来压缩感知信息,并以此为基础构建思维框架来表达、归纳所感知到的世界并进行因果关联,再通过反馈行为来影响世界。这个过程可能借助于发明、创造来实现或提升。下面逐一分析。

信息感知:即接收外部刺激信号。

人类感知可表现为视觉、听觉、味觉、触觉和其他各种身体感觉,分别接受图像、声音、气味、口味、受力、温度等物理和化学信号。其中很多感知信息可以绕过意识,直接输入到人体器官,实现潜意识功能。比如,腿部的受力感知可直接通过身体的平衡机制来决定神经的运动和着力,以维持身体平衡乃至完成行走动作。

在信息感知方面,机器可能已远胜过人类,因为通过各种传感器和精密仪器,机器不仅能以更高的灵敏度接收人类能够感知的信号,还能探测到人类不能感知的信号,比如超声波和红外线等。而且,存储介质价格的不断下降也使长期大量存储原始信号变成可能。

信息压缩:即通过特征抽取、概念化、分类来压缩和表达感知信息。人类的机械记忆能力远不如机器,但特征抽取和概念化能力却远胜于机器。

一个小孩只要看过一两只猫,就能抽取猫的一些基本特征,并根据这些特征从不同动物中分辨出猫,而机器需要学习成千上万个训练样本才能做出正确识别。除了特征抽取外,人类还会创造各种概念来表达所感知到的世界,即对具体实例根据其特征进行分类并针对不同类别建立概念。这些抽象概念不只限于名词,还包形容词和动词所反映的对象。自然语言能够帮助人类用概念来表达现象,但这不是必要条件。

很多动物并没有自然语言,却也可能对观察到的现象进行概念化。

归纳和推断:即通过对现象的观察进行总结,建立起概念之间的关系,找出普遍规律并用这些规律对未观察到的部分进行推断。在这方面,人类的能力更是远胜于机器。比如,人抬头看到天空是蓝色的。虽然视野只涵盖天空的一部分,但却可合理推断,视野之外的天空也是蓝色的。

又如,原始人类不断重复地看到天亮和天黑交叉出现,那也可能悟出这是一个周而复始的过程,因而在天黑之后可推断出不久天又会亮。人类根据归纳所得出的结论进行推断,可以在空间和时间上大大拓展人类所能表达的意象,从而在大脑中构造一个远比实际观察要更广泛的图景。一个只进过一个幼儿园的儿童,可以根据自己的经验总结出幼儿园的特征,并据此想象其他幼儿园的样子,这种推断会随经验的扩展而不断更新。

类比和推理:从具体实例中抽取反映特征的抽象概念,把实例中观察到的规则上升到抽象概念之间的关系,并以抽象概念为基础进行演绎和推理。这一过程在信息压缩以及归纳和推断中就有体现,这里特别列出是强调其在人类高等思维中的作用。类比推理致力于把实例之间的关系上升到概念之间的关系,并通过概念之间关系的演绎来理解和记忆实例之间的关系。

比如,儿童可对“猫离开窝”和“弟弟离开房间”进行类比,进而理解“离开”这一动作概念的抽象意义。抽象概念上的演绎则类似于“如果A离开B,那么B里面就没有A”,这种抽象演绎可以脱离A和B的具体含义。用示意图来表示事物之间的关系也属类比,而数学则是用数字、符号、几何图形和抽象概念来表达和演绎抽象关系的类比推理。类比推理使得人类可通过抽象概念之间的演绎来理解事物之间的复杂关系。

因果关联:指在不同现象之间找出因果关系,即判断某个或某些现象可能导致或影响另一个现象。从了解世界是如何运行的角度来看,因果关联其实是一种认知构造,是对“行动-后果”关系的表述。因果关联注重于其预测和操作意义。比如,放开手中的苹果,苹果就会掉地上。又如,吃了腐烂的果子,可能导致身体不适。当然,人也会得出错误的因果关联。

比如,部落里有人捡了一块石头回来,而第二天正好有几个人生病,那大家就可能误以为这块石头带来了厄运。再如,中国和印度是世界上人口最多的国家,这两个国家近代恰恰又比较贫穷,因此很多中国人就误以为人多会导致贫穷,但这与现代经济学的理论和实证分析并不相符。

预测和决策:借助于对因果关联的理解,人类可预测不同行动所产生的后果,并在此基础上制定方案以实现某些具体目标。

比如,原始人如果发现了吃腐烂的果子会导致身体不适,那他们可能会在采摘的果子中挑选出那些腐烂的扔掉。又如,早期人类可能通过观察发现,春天将种子播撒在土地里,到了秋天就能收获粮食。观察到这种因果关联,人类就可能从狩猎转为播种来维持长期的食物供应。同样,错误的因果关联会导致人类犯错。比如,把人多与贫穷联系起来促使中国社会开启了人类历史上空前而且也会绝后的极端的一胎化政策。

规划:基于对观察现象的了解和对因果关联的理解,人类可能把比较抽象、长期的目标分解成具体、短期的子目标,并对每个子目标确定具体方案并对最终目标制定整体规划。比如,幼儿园里一个女孩希望吸引一个男孩的注意。她就注意到男孩喜欢玩积木,为了讨好他,她就去给妈妈做家务挣零花钱来买积木送给他,希望获得对方的好感。这是一个整体规划和分步决策的例子。

要对一个抽象的目标进行规划和分步决策,需要对与之相关的各种背景现象以及各种因素之间的相互关系有充分了解。这点对人类并不难,但对机器来说则极具挑战性。

创造发明:指为了表达感受或者实现某种功能而设计、尝试、制造、完善某种装置、方法、过程。表达感受的创造发明可归为艺术创作,包括图像、声音、文字等各种表现形式,其效果往往是扩展、传递、激发人们的感受。

比如,原始部落会通过身体上的艺术装饰来吸引异性,而音乐、舞蹈等也是常用的情感抒发形式。实现特定功能的创造发明,也即技术进步则是基于对世界运行特别是因果关联的理解,搜索、联想、设计、尝试、验证的过程。这是一个从简单到复杂的不断积累、叠加、整合的过程,从最初的取火、石器、耕作、制陶、冶炼、车轮到后来的蒸汽机、发电机、飞机、计算机等。

理论发展:指人类对世界的系统性表达和理解。

通俗来说,就是数学和科学等各种理论体系,其中数学研究的是抽象表达体系内部的逻辑关系,科学则包括物理、化学、生物等自然科学以及经济、社会等社会科学的各个领域的理论。虽然系统性的因果关联,包括对各种自然和社会现象的系统性解释属于理论的范畴,但理论并不只限于反映因果关联。比如,数学本身就不涉及因果关系。物理学的各种定律则描述了各种物理量之间的内在关联。

虽然物理定律可用来预测物理系统的演化,从而被赋予因果关联的解读,但这并不是必须的。像量子理论和混沌理论甚至可以被认为为是对因果关联普遍意义的否定。在根本意义上,理论是对世界的认知模型,通过这种模型可以对世界进行更简洁、清晰、具有美感的表达。创造发明和理论发展相辅相成,促进了人类整体认知能力的提升,也体现了人类智能的终极水平。

在机器未能独立创立类似于广义相对论和现代量子力学这般精巧的理论之前,尚不能说人工智能完全超越人类。

上面的叙述并未区分个体和群体的认知。实际上,在人类认知能力的发展过程中,群体交流是一个关键部分。群体交流的基础是不同个体在感知和认知方面的共性,以及建立在这些共性之上的身体语言、自然语言以及其他符号系统的交流方式。作为一种社会性物种,人类认知能力的很大一部分表现为个体之间的交流与合作的能力。

因此,情感交流、语言文字表达和理解、处理人际关系的能力以及领导力也是人类认知能力的重要组成部分。而棋类和球类等游戏除了本身的娱乐功能外,还可以帮助人类训练和培养各种相关技能。

除了可以把人类整体的认知进步看成是无数个体相互合作、共同努力的结果,还可以对个体的行为目标进行分解。如前所述,目前机器能处理的大部分是目标明确的问题,而人类的智能行为往往没有明确的目标。

比如,人有可能漫无目的地东游西逛来消磨时间,虽然在这个过程中也可能积累对周边环境的了解。实际上,人类个体对世界的了解,尤其在初级阶段,很大部分来自于无监督的学习。因此,机器要模拟人类来进行无监督学习,也许需要能像人类那样自动产生各种探索动机。

决定人类采取这样而不是那样的行动,有感性的推动也有理性的决定。

所谓感性是指支配人类行动的直觉、本能、情感等反应机制,而理性则是指引导人类行动的分析、综合、判断、推理等思维机理。与理性相比,感性反映了生命更基础、更本质、更底层的特征,对人类行为的支配也更为直接、迅速和普遍。

感性在精神、潜意识甚至无意识的层面影响甚至决定着人类的绝大部分行为,如身体运动、喜怒哀乐、饮食男女、爱恨情仇等;而理性决策则是在经验、知识基础上的思考和判断,如下哪一步棋、上什么学校、从事什么职业、在哪里买房等。当然,每一个具体的行为都可能既受到感性也受到理性的影响,不能一概而论。

不管是判断环境的直觉、体现快速反应回路的本能、还是用于分解抽象目标的情绪,这些感性机制都是人类整体在漫长演化过程各种经验和智慧长期积累的结晶。相比之下,理性反映的则是个体在当前生命中各种经历、知识和思维。在这种比较下,理性追求的是个体、局域、具体、短期、明确的目标;感性则是整体、全域、抽象、长期的目标在个体身上的折射,而个体的感性行为可能是群体理性行为的基础。比如,人类追求爱情可能是一个感性行为。

傻乎乎地以为对方是天下最好的人,明知火坑也要跳,一点都不理性。但反过来,如果每个个体都无比理性,那可能没人会结婚生子,整个族群也就无法繁衍延续下去。在这里,群体生存的理性通过个体的感性行为得以体现。

人类理性的基础是因果关联。只有在某种行动-后果的因果关联下,采用这种而不是那种行动才能被称为理性。如前所述,因果关联是人类思维的一种认知构建,建立在对复杂系统的简化表达前提下,即影响结果的各种相关因素可以近似地类比为多元线性回归中的不同因子。如果反映不同因素关联的动态系统远离线性状态,这些因素的影响是很难赋予因果解释的。因此,理性的范围应该是作为认知对象的动态系统处于一种接近于线性的状态。

这种情形何时会出现呢?从数学的角度来看,接近于稳定态时,动态系统的变化趋势可以在稳定态附近做线性展开。在这种状态附近,系统具有预测性,因果关系也有意义。如果系统处于非线性混沌态,一个微小的动作就可能导致系统结局大不相同,因果关系将失去意义。与近线性系统会收敛到局域稳定态不同的是,非线性态可能促进系统质变跃迁,让系统轨迹从局域收敛步入全域搜索。

在这种意义下,基于因果关联和可预测性的理性所追求的是局域优化,而积累了漫长演化经验和智慧的感性则体现了人类整体在更大范围的演化轨迹。

值得一提的是,我们这里使用的“感性/理性”可能与人们平常理解的意思略有不同。

下面排列的成对描述也许可以反映本文赋予给“感性/理性”的含义,每对词汇的前者对应感性,后者对应理性:直觉/经验、内在/外在、底层/上层、先天/后天、遗传/习得、冲动/冷静、无序/有序、有机/无机、发散/收敛、突变/渐进、质变/量变、神圣/世俗、非线性/线性、不可预测/可预测、情怀/理智、混沌/清澈、综合/分析、利他/自私、群体/个体、全域/局域。

五、人工智能到底能否超越人类智能?

目前,人工智能实现的大都是人类的理性而非感性行为。这是因为理性的决策一般都是基于对世界的理解,在信息充分的情况下按照特定目标做出的,这点类似于人工智能完成它所擅长的数据结构化以及目标明确的任务。相比之下,感性行为基于人类的共同感受和常识,看起来简单、直接,但实际上却是建立在人类对世界的适应和反应机制上的。

这种机制来自两个漫长的学习过程。

一是地球生命几亿年和人类几十万年的演化历史;二是个体几年乃至几十年的经验积累和学习。其中,群体演化是生命乃至人类通过基因的复制、变异、淘汰等机制不断地适应环境。像直觉中的很大一部分可能是人类演化过程积累下来的。比如,人在黑暗中可能会感到恐惧,这可能就是早期在黑夜遭遇袭击的经历嵌入到基因中。像动物运动的平衡机制、择食的本能也应该是演化出来的利于维持生命的快速反应回路。

随着演化分叉,不同物种会在不同的机理下演化出相互独立的能力。比如,人类理解和使用自然语言的能力就嵌入在人类的遗传基因中;一个原始部落的人也能够学会中文,但鹦鹉哪怕能发出所有的音也不可能真正理解中文。

另一方面,除了这些嵌入在遗传基因的能力之外,个体还会获得额外的常识,这从个体出生就开始了。建立这些常识要十几年甚至更长的时间、对人类个体来说,熟能生巧就是行为方式从理性逐渐转为感性的过程。

比如,学习驾驶汽车在最开始需要很多理性判断,什么时候踩油门、转弯、刹车等需要大脑决定,但轻车熟路之后,驾驶则越来越成为一个潜意识的行为。在认知机制上,熟能生巧可能体现为让那些常用的反馈回路越来越内化为神经网络的特定结构和连接方式上。

机器要掌握人类感性机制、习得人类的常识极其困难,因为这些看似简单的机制和常识浓缩了上几亿年生命演化史、几十万年人类演化史以及几年乃至几十年个体的经历。机器的智能要真正超越人类智能,也许需要在某种意义上模拟方式重复这些过程。而机器要模拟人类群体演化和个体学习过程,需要设定一个终极目标,以便于自动将这个终极目标分解成具体、短期的子目标,再根据这些子目标来发展各种技能。

从生命演化的过程来看,这个终极目标只有可能是生存,而各种直觉、知识、技能则是达成这一抽象目标的副产品。因此,要让机器自动演化,需要赋予机器自身生存这一终极目标,让机器的各种能力在这一个目标的实现过程中得以发育、提升。从操作性来看,赋予机器这种单一、抽象的目标,并以此目标来筹划各种行为,意味着机器获得了某种意义的“自我意识”。

值得强调的是,生命的演化,尤其是人类等高等生物的生存延续,是通过繁衍在群体意义上实现的,而不是体现于单一的超级生命个体的不断进步。在这个过程中,人类通过求偶、交配、怀胎、生育、养育来将生命延续到下一代,而新的生命则需要从头学习各种知识和技能,花费很长时间才可能达到上一辈的水平。这种以繁衍为基础的生存延续看起来费时耗力,但为何却成为各种高等生物的演化方式呢?

首先,相对于一个复杂无比的超级体系,大量的功能相对简单的个体相互合作演化要更安全。如果只有一个超级生命体,不管其生存能力多么强大,一旦遭遇灾变,整个演化过程就结束了。但如果是大量的生活在不同地域的同质的生命个体在合作演化,他们全部遭遇不测的可能性微乎其微。只要很少个体能够生存下来,演化过程就不会中断。其次,就演化效率来看,以繁衍为基础的群体比单个超级生命更有优势。

本质上,智能的演进体现在通过各种搜索和训练来提升认知能力,需要经历和适应各种不同的环境,尝试不同的应对机制。这种训练的环境样本越大,智能的提升也越快。

设想一下,如果在有限的能源、材料、时间限制下,考虑造机器人去各地探索寻找最高的山峰,那到底是造出单一的各方面能力非常强大的超级机器人,还是造出一群同质、功能相对简单、相互间还可以通讯、协作的小机器人呢?一个机器人不能同时站在两个山顶。

哪怕超级机器人的视力和速度再杰出,也要一个山顶,一个山顶去探索。而众多的、相对简单的小机器人,尽管视力差些、速度慢些,却可同时搜索很多山头,再相互交流、学习、合作;最终的搜索效率可能会比单个巨无霸高得多。而且,积累的经验可以通过机器人的自我复制来成倍提高搜索效率,这比单个超级机器人的改进容易得多。

实际上,可重复性是认知演化的基础,而繁衍本质上就是功能的复制,并通过基因的变异、重组、淘汰逐步演化。

对人类认知来说,可重复性首先体现为个体之间感知和思维的相似性,这种相似性是交流、合作的前提,也是认知由个体扩展到群体的基础。此外,个体的经验也在不断地重复。虽然历史不会简单重复,但无论是过去还是未来的感知和经验,在思维中都是通过各种认知框架来表达的,而这种表达的各个片段可以被不断被重复。对认知机制来说,这涉及到目标的分解,就是把一个相对宏大的目标分解为相对简单、可重复的较小的任务。

在人类的行为中,这种目标的分解往往是一种靠情绪实现的感性过程。像幸福/悲伤、高兴/愤怒、安心/忧虑等这些情绪感受,本质上都是对人类行为的激励机制。比如,某学生考试过关会产生幸福感,而失败则会感到悲伤。这样一种关联会激励这个学生去努力学习,提升考试能力。

正是因为情绪是行为的激励机制,影响情绪的应该是目标结果的相对水平,而非绝对水平。比如,人的幸福感一般与收入的绝对水平无关,而只与相对水平有关。

高收入者未必比低收入者幸福,但自己的收入高于周围人的收入,或者今年收入大幅高于去年收入,特别是到手的奖金高于预期,那可能就会感觉快乐。从生物演化的角度来看,情绪取决于目标结果的相对水平也是自然的。如果幸福感与绝对收入水平正相关,那随着人类社会的进步,人类的整体幸福感会不断提升,这显然有悖于人类基本物理特征应该维持大致稳定的要求。

总之,幸福感是实现生存或者繁衍这个更基础目标的激励机制,而不是人类的终极目标本身。

在将机器与人类进行比较时,“自由意志”会被当成是人类有别于机器的重要特征。但这种区别可能并不是本质的。从外部来看,一只猫看到机器人和狗打架,可能就觉得机器人是有自由意志的。从内部的行为机制来看,“自由意志”体现为随机性,而包括阿法狗在内的人工智能程序实际上就具有某种随机特性。

比如,阿法狗在落子时就是采用了基于随机抽样的“蒙特卡洛树”方法。自由意志的重要性体现在,随机性可以扩展个体乃至群体对环境的搜索空间,提升演进的效率。

回到最初的问题,人工智能到底能不能超越人类智能?智力本质上是搜索的效率,即在各种可能性中尽快搜索到较好的结果,用以表达、理解、预测、判断、决策。智力的演进体现为搜索空间的扩展和搜索速度的提升,而想象力、创造力都是提升效率的手段。阿法狗围棋下地聪明,其实就体现在搜索效率的提高上。

由于人类演化在个体智能的提升上,远比机器智能的进步缓慢,没有理由认为机器不能全面超越人类。目前来看,机器能够很好地实现那些数据结构化、目标明确的理性功能。但机器要超越人类,仅仅模拟人类理性行为还远远不够,更大的挑战是如何让机器表现出类似于人类的感性行为。这远比想象的困难,因为看似简单的感性机制,其实浓缩了生物和人类漫长的演化改进和个体生命中经验、知识的不断积累。

一种可能的路径是模拟人类的演化过程。首先,在个体上,让机器的行为目标变得抽象,即赋予机器某种“自我意识”;再将类似于人类“情感”的激励机制嵌入到机器中,用于将抽象目标自动分解为短期和局域子目标,再加以类似于“自由意志”的随机行为。再进一步,实现机器的自我复制、变异、改进等,即模拟人类的繁衍过程,提升机器学习和适应环境的普遍性,合作性与安全性。

当然,人工智能的发展未必需要重复人类的演化历史。

实际上,人类的演化可能是从感性到理性,而人工智能的发展似乎是从理性到感性。不过,人工智能的发展可以走捷径,如通过了解人类的特点,直接感性机制嵌入机器。但迄今为止,人工智能领域对于人类感性甚至常识的理解和表达还比较初级,对于用非监督学习方式来模拟人类的感性行为还是一筹莫展。在可预见的将来,机器依然无法代人类,人与机器的合作将长期存在。

人会负责非结构化的问题,或者把非结构化问题转化为结构化的模式,让机器负责结构化问题的搜索和求解。在某种意义上,人机一体将成为新的生命形式。

实际上,人类技术的发展早已经拓展了生命的涵义。像互联网发展到今天,已经可以被视为一个超级生命体,而人类则是这个超级生命体上的细胞。虽然是人类发明的产物,但互联网已经脱离了发明者的掌控,越来越遵循其自身演化的逻辑。不过,由于互联网这个超级生命体是单一的,而不是被复制为相对独立的个体,人们通常并没有把互联网视为一个新的生命物种。这反过来也说明,实现繁衍机制或许是机器成为人类竞争对手的标志。

机器与人类的争斗是各种科幻作品中的常青主题。那么机器是否真有可能取代人类?即使人工智能最终全面超越人类,机器代替人类从事所有的工作,那也并不意味着人类就会消亡。人类演化的目的是生存,而不是工作。人类可能因为饥荒而死亡,却不会因为无需工作而活不下去。

那么机器是否会完全脱离人类的控制而最终消灭人类呢?

按前所述,机器目标的单一化和抽象化相当于让机器拥有“自我意识”,自动将抽象目标分解成具体、短期的子目标则可以通过嵌入“情绪”机制来实现,而随机性行为则体现了机器的“自由意志”。具有这些特征的机器比较容易脱离人类的控制,而繁衍机制的实现可能导致机器与人类争夺能源。但从乐观的角度来看,如果机器的智能没有超越人类,机器也就无力消灭人类。

如果机器达到人类的智能水平,由于进化的速度会远快于人类,机器不会长期停留在人类的水平,而会很快就会大幅超越人类的智能。到那一步,人类并不会构成对机器的威胁,因此机器也没有必要消灭人类。

更现实的是,机器全面超越人类的前景现在依然十分遥远,而且未来人工智能的重大突破都会引起人类的警觉,给人类足够的余地来应对。因此,人类目前真正需要担心的不是被机器消灭,而是自身繁衍是否可持续。

UUID: 5747f948-f6ac-4111-8dd6-da4238528099

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/赛先生公众号-pdf2txt/2016/赛先生_2016-03-10_深度|阿法狗们会取代人类吗?.txt

是否为广告: 否

处理费用: 0.0831 元