自从 AlphaGo 战胜人类,获得了世界冠军,人工智能就走在了时代的浪潮前。那么世界冠军 AlphaGo 是无师自通的吗?AlphaGo 都有哪些版本?AlphaGo 的关键技术是什么?中国科学院计算技术研究所研究员何清,带领我们走进 AlphaGo 的神奇世界。
首先,这是一个标志性的人工智能事件,就是在 2016 年发表在最高级别的学术杂志《Nature》上的文章,报道了 AlphaGo 的第一版。这一版是与人类选手比赛最后获胜,对手是樊麾。
AlphaGo Fan 是它的第一个版本,紧接着是与李世石以 4 比 1 获胜的 AlphaGo Lee 版本,之后又在 2017 年初在网上有一个快棋赛的版本,这个版本以 60 盘棋完胜中日韩的所有顶尖高手,这就是 AlphaGo Master,或者叫 AlphaGo 大师。
Master 版本微调以后,在 2017 年的 5 月,在乌镇与柯洁对阵中,以 3 比 0 战胜了柯洁,之后 AlphaGo 又有一次突破性的进展,那就是 AlphaGo Zero。
AlphaGo Zero 根本不学习人类的棋谱,根据围棋的规则,自己生成棋局,左右互搏最后形成自己的棋力,之后进行了与它的前一辈,也就是 AlphaGo Master 对阵,它完胜 AlphaGo Master。
在 AlphaGo 的版本当中,AlphaGo Zero 和以前的版本相比,最大的两个不同是什么呢?首先,AlphaGo Zero 不再输入以前的、人类的棋手所用的棋盘特征,而是用棋子的位置直接输入来做。第二点,初始训练的时候根本不需要棋谱了,只需要知道棋盘的结构和下棋的规则。
AlphaGo 战胜了很多顶尖棋手,它最关键的技术是什么呢?就是蒙特卡洛树搜索技术、深度学习的特征学习技术,还有增强学习技术。增强学习技术就是自身相互左右互搏,然后增强自身棋力。那么 AlphaGo Zero 的突破是什么呢?首先,它的输入变成了棋子的位置;第二,它不再用人类的棋谱去训练,而是基于围棋规则,生成很多样例,利用样例去做强化学习。
AlphaGo Zero 按照他们披露出来的资料,实际上它很重要的方面,它讲了一个根本不需要人类的知识就能搞定围棋,这是他们所讲的很有广告色彩的一个口号,但是事实上蒙特卡洛方法是人创造的方法,这是人的知识。并且,它具有完整的表述。除了纯粹的强化学习之外,他们还用了基本的围棋规则,没有任何给定的人类知识。但是棋盘的规则结构就不是知识吗?这些知识也是几百年总结出来的。原来的围棋结构可能和现在都不一样。
实际上,AlphaGo 所做的这件事情实际是冷启动、无实例、无样本的,但是初始的无实例并不意味着真正的没实例、没样本。因为人类总结的规则已经能够保证获得几乎所有的棋局、棋势,所有棋谱都可以概括,只要你有时间。因此 AlphaGo Zero 属于机器生成的大数据人工智能,我本人就主要搞大数据挖掘技术。
它们到底起什么作用呢?比如说棋盘的结构,其实棋盘的结构就已经决定了明确的最终目标和确定的学习方法。
我们有强化学习方法,是人想出来的,作用于大样本实例就行了,有的是来自棋谱的大样本实测,有的采取的是规则生成的实例。算法上有强化学习,计算上有分布式并行计算。因此我们说 AlphaGo 不是无师自通的,无论是哪一个版本,特别是 AlphaGo Zero 也不是无师自通。因为 AlphaGo 是不以人类的棋谱为学习的知识,但是自己生成了知识。
人和机器都要遵守所有的规则,机器不能自主改变规则,而人可以改变,这就是人下棋和机器下棋的不同,所以 AlphaGo Zero 不是无师自通的。谢谢大家!