AlphaGo再进化：新一代机器人AlphaGo Zero诞生

AlphaGo在围棋界已是“独孤求败”的境界，所以，要突破自己的界限，甚至围棋知识的界限，显然只有AlphaGo自己才能做自己的老师。从算法上来说，AlphaGo Zero更简洁、漂亮，让我想起爱因斯坦的KISS原则：simple but not simpler。这一次，AI在人类的帮助下，在一个给定的规则下，自主发现新知识，并且纠正人类的错误知识，而且以惊人的速度达到这一点。

有趣的是，AlphaGo无法解释，只能demo给人类。在这个特定的小领域，人类和人工智能一起创造了新知识。

经过几百万盘的自我博弈后，AlphaGo Zero进步明显，不仅棋力大幅增强，运算速度也提升了不少。在100盘对局中，仅使用1台机器、4个TPU的AlphaGo Zero对使用多台机器、48个TPU的AlphaGo Lee取得全胜，后者曾经击败韩国名将李世石。

在同样配置下，AlphaGo Zero对AlphaGo Master取得89胜11负的压倒性优势，后者就是2017年1月在顶级围棋在线对战平台上取得60战60胜的神秘选手Master。而且，AlphaGo Zero训练了72小时就完胜AlphaGo Lee，仅用40天就超越了AlphaGo Master。

这主要得益于DeepMind团队开发的新型强化学习技术。何为强化学习技术？

简单来讲，强化学习使用一套奖励机制，让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分，蒙特卡洛树搜索算法（Monte Carlo Tree Search，MCTS）与神经网络算法。

其中，神经网络算法给出落子方案，以及预测当前形势下的胜方；MCTS算法可以看成是一个弈棋策略的评价和改进工具，它能够模拟出AlphaGo Zero落子在哪些地方可以获得更高的胜率。如果AlphaGo Zero从神经网络得出的下一手棋的走法越相似于MCTS算法输出的结果，则胜率越大，即所谓回报越高。

如此，在每一着棋中，AlphaGo Zero都要优化神经网络中的参数，使其计算出的落子方案更接近MCTS算法的结果，同时尽量减少胜者预测的偏差。开始的时候，AlphaGo Zero的神经网络完全不了解围棋，只好盲目下棋。但经过日以继夜的“左右互搏”般的训练，无数盘对局后，AlphaGo Zero迅速从围棋小白成长为传奇棋神。

除了改进人工智能技术外，DeepMind团队也希望能够通过AlphaGo项目获得对围棋更深的认识。他们发现，AlphaGo Zero仅仅自我对弈几十天就掌握了人类几百年来研究出来的围棋技术，而且棋路独特。例如，AlphaGo Zero很喜欢下出定石（围棋术语）的新型变种。这是因为它没有使用人类数据，不再囿于人类现有的围棋理论。

“当前的最强版本，AlphaGo Zero向我们展示了即使不用人类的数据，即使使用更少的计算资源，也能够取得长足进步。最终我们想用这些技术进展去解决现实问题，如蛋白质折叠或者新材料设计。如果我们能够在这些问题上取得同样进展，这将会增进人类的认知，从而改善每个人的生活。”DeepMind的共同创办者兼CEO，Demis Hassabis如是说。