AlphaGo再进化:新一代机器人AlphaGo Zero诞生

作者: 李家劲

来源: 知识分子

发布日期: 2017-10-19

DeepMind团队开发的新一代围棋AI——AlphaGo Zero,通过自我对弈提升棋艺,不依靠人类数据,仅用40天就超越了前代版本。AlphaGo Zero展示了强化学习技术的应用,不仅在围棋领域取得突破,还可能应用于蛋白质折叠和新材料设计等现实问题。

AlphaGo在围棋界已是“独孤求败”的境界,所以,要突破自己的界限,甚至围棋知识的界限,显然只有AlphaGo自己才能做自己的老师。从算法上来说,AlphaGo Zero更简洁、漂亮,让我想起爱因斯坦的KISS原则:simple but not simpler。这一次,AI在人类的帮助下,在一个给定的规则下,自主发现新知识,并且纠正人类的错误知识,而且以惊人的速度达到这一点。

有趣的是,AlphaGo无法解释,只能demo给人类。在这个特定的小领域,人类和人工智能一起创造了新知识。

经过几百万盘的自我博弈后,AlphaGo Zero进步明显,不仅棋力大幅增强,运算速度也提升了不少。在100盘对局中,仅使用1台机器、4个TPU的AlphaGo Zero对使用多台机器、48个TPU的AlphaGo Lee取得全胜,后者曾经击败韩国名将李世石。

在同样配置下,AlphaGo Zero对AlphaGo Master取得89胜11负的压倒性优势,后者就是2017年1月在顶级围棋在线对战平台上取得60战60胜的神秘选手Master。而且,AlphaGo Zero训练了72小时就完胜AlphaGo Lee,仅用40天就超越了AlphaGo Master。

这主要得益于DeepMind团队开发的新型强化学习技术。何为强化学习技术?

简单来讲,强化学习使用一套奖励机制,让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法(Monte Carlo Tree Search,MCTS)与神经网络算法。

其中,神经网络算法给出落子方案,以及预测当前形势下的胜方;MCTS算法可以看成是一个弈棋策略的评价和改进工具,它能够模拟出AlphaGo Zero落子在哪些地方可以获得更高的胜率。如果AlphaGo Zero从神经网络得出的下一手棋的走法越相似于MCTS算法输出的结果,则胜率越大,即所谓回报越高。

如此,在每一着棋中,AlphaGo Zero都要优化神经网络中的参数,使其计算出的落子方案更接近MCTS算法的结果,同时尽量减少胜者预测的偏差。开始的时候,AlphaGo Zero的神经网络完全不了解围棋,只好盲目下棋。但经过日以继夜的“左右互搏”般的训练,无数盘对局后,AlphaGo Zero迅速从围棋小白成长为传奇棋神。

除了改进人工智能技术外,DeepMind团队也希望能够通过AlphaGo项目获得对围棋更深的认识。他们发现,AlphaGo Zero仅仅自我对弈几十天就掌握了人类几百年来研究出来的围棋技术,而且棋路独特。例如,AlphaGo Zero很喜欢下出定石(围棋术语)的新型变种。这是因为它没有使用人类数据,不再囿于人类现有的围棋理论。

“当前的最强版本,AlphaGo Zero向我们展示了即使不用人类的数据,即使使用更少的计算资源,也能够取得长足进步。最终我们想用这些技术进展去解决现实问题,如蛋白质折叠或者新材料设计。如果我们能够在这些问题上取得同样进展,这将会增进人类的认知,从而改善每个人的生活。”DeepMind的共同创办者兼CEO,Demis Hassabis如是说。

UUID: bfd8430c-3b6a-43cc-83a3-9485775534d3

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/知识分子公众号-pdf2txt/2017年/2017-10-19_AlphaGo在围棋界“孤独求败”,Deepmind再出新一代机器人前沿.txt

是否为广告: 否

处理费用: 0.0038 元