AlphaGo遥指通用AI：一个算法攻陷三大棋类游戏，成为棋类游戏终结者

AlphaGo之父、Deepmind创始人兼CEO 哈萨比斯（Demis Hassabis）曾经提出一个远期目标：打造通用的人工智能，它将是一套灵活的自适应算法，能够从头自学掌握各种任务。

在去年年底的NIPS大会上，哈萨比斯首次公开解读了AlphaZero：在AplhaGo Zero的基础上，AlphaZero又学会了国际象棋和日本将棋，分别击败了当时最好的国际象棋引擎Stockfish和日本将棋程序Shogi，以及此前创下佳绩的围棋程序AphaGo Zero，AlphaZero俨然成为了一个更通用的人工智能算法。

不过人们很好奇，为什么这样一个看似重大的突破，却这样草草的发布，不仅没有像此前一样首先发表于顶级科学期刊，也没有投会议论文，只是在预印本网站发布了论文。有人称赞AlphaZero是又一次突破，但也有人对其科学有效性提出了质疑。比如，精通国际象棋的AI专家Jose Camacho Collados 撰文指出，AlphaZero的代码没有开源，从科学角度看，其方法无法被其它专家验证。

时隔一年，今天，AlphaZero的论文登上科学期刊Science的封面，用严格的同行评审证明了新算法取得的突破。从计算机时代的早期开始，游戏就被认为是人工智能研究的重要载体。游戏简化了现实世界中的问题，同时保留了足够的复杂性挑战人类与机器。曾经，大多数棋类游戏的程序是人工设计的。利用先进的搜索方法、复杂的评估功能以及各种技巧，很多程序已经能够超越最优秀的人类玩家。

早在1997年，IBM的计算机“深蓝”击败了俄籍世界国际象棋冠军，近20年后，2015年10月，AlphaGo在难度超高的围棋比赛中，终于在无需让子的情况下，历史性地击败了围棋职业棋手，登上科学期刊Nature。

此后，AlphaGo的发展进入快车道，2017年10月，AlphaGo的升级版AlphaGo Zero登上Nature，这是一个没有用到人类数据的版本，它通过与自己对战，超越了世界上最强的棋手与程序。

2017年12月，Alpha Zero发布，它使用与AlphaGo Zero类似的方法，但是更加通用，不仅自学了围棋，还学会了国际象棋和日本将棋，成为掌握了三种世界上最难棋类游戏的人工智能，彼时发布在网上预印本系统arXiv上。经过了严格的评审过程后，2018年12月7日的Science杂志作为封面内容报道了AlphaZero。

AlphaZero依然使用AlphaGo Zero的框架：深度强化学习加蒙特卡洛树搜索。利用5064个TPU的强大计算资源，在24小时内，自我对弈，总体击败了在单项领域中的最强程序。在学习每个棋种的时候，系统在自我对弈的胜负中学习，以调整神经网络的参数，使其更可能在未来选择有利的动作。

训练量大小取决于比赛的风格和复杂程度，对于AlphaZero来说，国际象棋的训练大约需要9小时，日本将棋的训练需要12天，围棋则需要13天。

在国际象棋比赛中，AlphaZero在4小时后第一次击败了国际象棋最强程序Stockfish；在日本将棋比赛中，2小时后击败了日本将棋的最强程序Elmo；在围棋比赛中，30小时后首次战胜了与李世石对战的AlphaGo v18。

针对AlphaZero这一成果，曾经参与构建了IBM“深蓝”系统的IBM研究院研究员Murray Campbell发表了评论文章，他指出，相比此前的AlphaGo和AlphaGo Zero，AlphaZero更加具有通用性，仅根据规则，通过自我对弈就能在较短的时间内，在多种棋类达到顶级水平。同时，他认为AlphaZero算是棋类AI的终结者，未来研究人员需要挑战的是新一代游戏。

在AlphaZero最早出现的时候，褒奖与质疑同时出现。有人质疑AlphaZero在与国际象棋和日本将棋的对战中，处于不公平的比赛环境。因为国际象棋程序Stockfish和日本将棋程序Elmo都无法利用AlphaZero设计使用的TPU硬件。

Deepmind对比赛环境进行了解释，在其今日发表的博客中，写道：每一个程序都在为其设计的硬件上运行，Stockfish和Elmo使用44个CPU，而AlphaZero和AlphaGo Zero使用了4个一代TPU和44个CPU。

棋手们对AlphaZero多有赞扬，前国际象棋世界冠军Garry Kasparov称：“飞机不会像鸟一样拍打翅膀，机器也不像人类一样下棋……这些自学成才的专家机器不仅仅有出色的表现，而且我们可以从它们所产生的知识中学到更多。

”被认为是日本将棋最优秀棋士的Yoshiharu Habu认为：“AlphaZero的很多下法违背了人类眼中的将棋理论，比如它会将国王移到棋盘中心，这看上去会使AlphaZero处于危险的地位。但令人难以置信的是，它仍然能够掌控整个棋局，其独特的游戏风格让我们看到了新的可能性。”

就像Murray Campbell所说，AlphaZero似乎代表着棋类AI走到了尽头，游戏类AI的下一步需要挑战新的类型。他在文章中表示，国际象棋、日本将棋以及围棋都非常复杂，但同时它们相比其它种类的游戏更容易被计算机解决。例如，棋类游戏中只有两名棋手，具有确定性、静态、离散的特点，这些特点让蒙特卡罗树搜索有了用武之地。

多人视频游戏，如星际争霸、Dota2已经被提议作为下一个游戏挑战对象，它们部分可见、是不完全信息的博弈、具有非常大的搜索空间和大量的动作集。

不过哈萨比斯的目光绝不仅放在游戏这一领域，就在前几日，Alpha系列将眼光放在了科学研究领域，Deepmind的最新人工智能程序AlphaFold进入生命科学领域，首次参加了全球蛋白质结构预测竞赛，一出手就击败了其它所有对手，在98个参赛队伍中排名第一，在预测的43种蛋白质结构中，有25种最为准确。

从游戏到解决科学问题，哈萨比斯认为，这对于Deepmind来说，是一个非常关键的时刻，这是其在人力和资源方面的第一个重大投资，也是非常重要的、现实世界的科学问题。哈萨比斯曾经在接受《卫报》采访时说出了对未来的展望，他认为超级智能的机器将与人类专家合作解决任何问题，包括癌症、气候变化、能源、基因组学、宏观经济学、金融系统、物理学。

他说：“我们需要掌握的许多系统都变得愈加复杂，信息超载使得最聪明的人也很难再一生中掌握它。”他认为未来通用人工智能将有所帮助，虽然也许这个时间还需要几十年。