从0到1
是否还记得去年,围棋界人机大战,AlphaGo通过海量的人类棋谱在数月内棋艺速成,战胜了人类世界冠军。如今,阿法狗(AlphaGo)的升级版——谷歌DeepMind团队最新的研究成果,人工智能程序阿法元(AlphaGo Zero)在没有任何人类经验输入的条件下,几天之内无师自通,成为了策略类游戏的终结者。
从阿元的名字不难看出,从0到1的自学能力是阿元与阿狗的最主要区别。
阿法狗的棋艺启蒙源于超过10万份的人类专业棋手的游戏过程。但阿法元并没有向人类讨教,而是自己和自己胡下乱下,再完全靠自己从一盘盘乱下的结果中总结学习,参透棋谱。经过40天的集训,阿法元自己和自己下了3000万盘棋,顺利地击败了前任,成为新的棋王。该论文已于2017年10月18日发表在Nature上。
这种无师自通的本领叫做强化学习(reinforcement learning),自己和自己下棋,只需知道最后是输是赢,便能自己总结围棋的抽象概念,并在下一盘中提高自己。有意思的是,阿法元在自学的过程中反应出了人类选手学习的特点,比如最开始,阿法元也会像人类围棋新手那样,痴迷于吃子。但经过3天的训练,阿法元就能达到专业水平,掌握更复杂的下棋技巧。
正如DeepMind的 CEO Hassabis所言“它很快就参透了人类几千年总结的智慧结晶”,并且40天之后,就掌握了连人类也还不知道的新的策略技巧。
上一代的AlphaGo使用两套独立的神经网络:一套用来预测可能的走子策略(Policy),另一套则要从这些可能中估算出哪一种的胜算最大(Value)。对于后者,AlphaGo不得不模拟出大量的棋局并进行海量计算。
相比之下,阿法元只使用单一的神经网络,能直接输出最佳的落子策略以及该策略下的胜算值,说白了就是算法优化,将两个网络合二为一了。这就好比,让一位专家直接给出一个最终答案,而不是根据100名菜鸟选手的下棋结果再做判断。
论文的第一作者,DeepMind的David Silver博士认为,将两个网络合二为一,可以使算法的适应性更强,效率更高。当然了,即便是这样,阿法元也需要进行超大量的计算——至少4个(每个硬件费用高达2500万美元)TPU。不过,阿法狗需要48个TPU……
下棋之外
显然,人类研究Alpha Go直至现今的AlphaGo Zero,目的肯定不仅仅是为了下棋。DeepMind公司中的很多研究人员已经不再专攻AlphaGo系列,而是开始尝试将类似的技术应用到其他领域。其中,最有前途的领域非蛋白质折叠莫属。
蛋白质折叠又是啥?……
简单地说,蛋白质是由一堆氨基酸,根据自身的亲水、疏水,或者带正电、负电等特性折叠而成的立体结构。如果我们能搞清楚蛋白质的折叠过程,就等于破译了折叠密码,这对于新药研制有极重要的意义。但是我们关于这方面的历史数据非常少,而结构的可能性又多得近乎于无穷……
哎?!这不正好和阿法元自学下棋时面对的场景一样吗?
是滴,科学家们也发现,破解蛋白质的折叠密码与下棋颇为相似,因此决定率先在该领域应用AlphaGo技术。所以说,阿法元的意义是什么,因为它终于满足了一个前提,将人工智能技术真正应用到现实世界中解决实际问题的前提,算法并不需要太多的先验知识。