首先让我们来看看AlphaGo的研发团队DeepMind所策划的这个人机比赛实验。一个有趣的问题是,既然AlphaGo具备了系统的、一般的自学习、自评价、自我成长能力,那么为什么DeepMind团队不让AlphaGo用更多棋谱更长时间来训练两个神经网络呢?对这个问题的一个可能的解释是DeepMind团队能够方便或者就近邀请到的最高水平职业棋手就是欧洲冠军樊麾二段了。
而且,在正式比赛实验之前,DeepMind团队就已经有足够的信心战胜樊麾。对这个问题的另一个解释与深度学习的理论基础有关。众所周知,深度学习(强化学习同样),作为神经网络学习的方式之一,与其基础神经网络一样,至今缺乏一个坚实的理论基础来对其各种结果给出因果的、抽象的理论解释。因此,关于深度学习过程及结果,现在似乎还无法用理论方法来进行预测和解释,从而只能是通过实验来观察效果。
基于这个事实,笔者的估计是DeepMind团队也还没有有效的理论方法来准确评估让AlphaGo不断地训练学习下去所能提高的棋力,只有通过让AlphaGo和其它计算机围棋程序及人类棋手下棋来观察效果。这样,有着欧洲冠军地位的职业二段棋手樊麾答应参加比赛实验,对DeepMind团队来说,就是一个很好的机会了。接下来让我们来预测一下:3月份的AlphaGo和李世石之战,谁将是胜者?胜负结果将能说明什么?
如果AlphaGo的确具备了系统的、一般的自学习、自评价、自我成长能力,并且樊麾和李世石的棋力之间仅仅是经验之差而没有本质上飞跃性差距的话,那么,3月份的AlphaGo和李世石之战,对李世石来说就凶多吉少了。这是因为,AlphaGo棋力的提高仅仅是个训练数据和时间的问题,从去年10月战胜樊麾到今年3月,让AlphaGo训练和学习的时间已经足够了。
或者说,即便是此次交战李世石能够勉强获胜,AlphaGo战胜人类超一流旗手也是指日可待的事情了。想当年,Deep Bule也是在1996年输给了Kasparov之后,次年就战胜了他的。反之,如果此次交战李世石完胜AlphaGo未失一局而AlphaGo完全没有机会,那么,或者是AlphaGo的自学习、自评价、自我成长能力还要打个折扣,或者是AlphaGo的工作机制还缺乏系统性和一般性,甚至两者皆是。
那么,AlphaGo仍然是一个Ad hoc的系统。现在,双方都表示信心十足,但是,DeepMind团队一方的信心显然要比李世石一方来的更有根据。下面让我们来讨论从此次AlphaGo完胜樊麾的结果引申出来的一些问题。此次AlphaGo完胜樊麾让不少人“大惊失色”的原因之一,似乎是源于世间一个很有问题的说法:围棋是“人类最后的智力骄傲”,“人类的最后堡垒”。
事实上,尽管人类社会的一些智力对抗游戏所要求的智能,相对于动物通过感觉器官来获得并利用感觉的智能相比,所要求和体现出的智力要高很多,而围棋的规则虽简单局面却千变万化的确使它成为要求高度智力的游戏,但是把围棋拔高到“人类智力顶峰”的说法还是太过分了。笔者认为,比起学习,创造更需要高度的智力。学习仅仅是对已经存在的事物从不知到已知、从浅知到深知,而创造是从无到有、从旧到新。
人类的创造性行为所要求的智力程度应该是很高的,虽然我们还没有定性定量的标准能够用来衡量人类和动物在各种行为中的智力程度。人类智能从动物智能中逐渐进化演化出来,也是创造性行为的结果。在围棋活动中当然有创造性行为存在,但是具体到围棋对局,毕竟还是经验交锋的成分要大得多。所以,即便是某日计算机围棋程序可以大败世界超一流棋手,就人类社会整体来说,我们也不必担心什么“人工智能将会超越人类智能”。
更进一步说,实际上,虽然试图阐明科学发现的一般机制在历史上从来都是科学哲学家和逻辑学家的研究课题之一,但是在计算机科学和人工智能领域,只有极少数学者在做试图把科学发现过程算法化自动化的研究工作。我们距离让计算机程序自动创造出具有一般意义和价值的结果实在还是很远很远,如果不是永远不可能的话。另一方面,围棋在一点上完全不同于象棋。围棋是古来演化到今天这个样子的,当初也不是19*19的棋盘。
笔者认为,到了AlphaGo战胜超一流棋手的那一天,我们仍然可以继续让它来挑战人类智能:把围棋盘扩大到21*21,23*23,25*25,……。让职业棋手的直觉和经验与AlphaGo在双方都没有棋谱可利用的条件下出发来比个高低,不是也很有趣吗?“人类最后的智力骄傲”,“人类的最后堡垒”被守住了也未可知呢!接下来笔者想回答的问题是:AlphaGo做不了什么事?
换个严谨点的问法,DeepMind团队用在AlphaGo中的策略和技术做不了什么事?再换个问法,人类拿什么智力问题(以对抗游戏的方式)来和使用了AlphaGo的策略和技术的计算系统比高低将会永远必胜?笔者在前面已经说到过,深度学习(强化学习同样),作为神经网络学习的方式之一,与其基础神经网络一样,至今缺乏一个坚实的理论基础来对其各种结果给出因果的、抽象的理论解释。
实际上,神经网络学习在评价标准上本质是统计方法而不是逻辑方法。所以,一言以蔽之,凡是在结果中或者对结果的说明和解释中要求有清晰的逻辑因果链条并且不容中断的问题,对AlphaGo们来说都将无能为力。此次AlphaGo完胜樊麾,似乎已经为霍金,马斯克们的“人工智能威胁人类论”及其追随者们提供了新的支持证据。显然,再强大的计算机围棋程序本身也不可能产生威胁人类的行为。
有趣的问题是,把搜索空间尺寸降低和“自己学会下棋”的AlphaGo的策略和技术是否具有一般性?这些策略和技术能否应用到对人类有威胁的行为上去?笔者自己认为,即便是到了AlphaGo战胜超一流旗手的那天,即便是AlphaGo的策略和技术具有一般性。最后,还有一些更一般的有趣问题,因为牵涉的基础知识和专业知识比较多,就不在这里讨论了,留待3月份AlphaGo和李世石之战的结果揭晓以后再说吧。