DeepMind全能AI:完全自学规则,攻破多款游戏,表现碾压人类!

作者: 罗丁豪

来源: 环球科学

发布日期: 2020-12-24

DeepMind公司开发的MuZero算法能够在没有规则指导的情况下,自学并精通国际象棋、将棋、围棋及30多款雅达利游戏,表现超越人类和以往AI算法。MuZero通过建立内部模型,展现出极高的可塑性,标志着人工通用智能的一个重要进展。

DeepMind用同一个算法,攻克了国际象棋、将棋、围棋和雅达利游戏。开发出人工通用智能,一直是人工智能研究的一大目标。此前的许多算法虽能精通诸如围棋、象棋等游戏,却无法“触类旁通”,每遇到新的游戏都需要更改框架,重新学习,更不用说将棋类游戏的方法搬到电脑游戏上了。

然而就在昨天,曾开发AlphaGo的DeepMind公司在《自然》上发文,正式宣布了MuZero:这个新的算法不仅精通围棋、国际象棋和将棋,还能在30多款雅达利(Atari)游戏上全面超越过去的人工智能算法和人类。MuZero的正式发布,为人工智能领域揭开了新的篇章。

故事从2014年开始,基于伦敦的DeepMind公司怀着一腔雄心壮志,着手建造一个巨大项目:他们想要将正在生根发芽的人工智能(artificial intelligence,简称AI)技术大面积地应用到人类生活场景中,让机器与人真正地互动并融合。

他们决定从国际象棋入手:这是一个需要长期计划能力的人类游戏,对初出茅庐的AI技术来说是一项严峻的挑战。即使在1997年IBM的“深蓝”(Deep Blue)击败当时的国际象棋冠军卡斯帕罗夫之后,棋类AI的发展仍步履维艰。以围棋(Go,即日语“碁”字之转写)为例:2013年,AI在不让子的情况下几乎无法击败人类职业选手。

2016年,AlphaGo横空出世,以4:1击败韩国选手李世石,并在2017年的乌镇围棋峰会上击败了世界第一棋手柯洁。中国围棋协会当即授予AlphaGo职业围棋九段的称号。

如果说AlphaGo的成功确立了AI的“围棋霸权”,随后的AlphaGo Zero和AlphaZero则进一步揭示了“棋类霸权”的可能性。作为AI算法,不论是AlphaGo还是其继位者,都需要大量的训练。

AlphaGo依赖于专家棋法(expert moves)数据集,而AlphaGo Zero舍去了这一步,直接与自己对战以为训练提供数据。AlphaZero则除了围棋,更学会了日本象棋(将棋)和国际象棋。值得一提的是,2018年底发布的AlphaZero,从第一次见到棋盘,到成为世界级棋类大师,只用了24小时。

然后,MuZero来了。一篇昨晚正式发表于《自然》的论文,揭示了一个更加通用、强力的算法:MuZero不仅能下围棋、将棋和国际象棋,还在30多款雅达利游戏中展示出了超人类表现。

最重要的是,没人教过MuZero这些游戏的规则。自古以来,哲学家和科学家都幻想着有朝一日能造出“人工通用智能”(artificial general intelligence)。简单地说,人工通用智能需要有极高的可塑性,从而适应(甚至精通)各式不同的任务:一个能下棋、玩游戏、做家务、开飞机的AI。

然而在此之前,最好的AI算法也只能精通数个同类任务;会下围棋、将棋和国际象棋的AlphaZero就是一个例子。这种限制,在很大程度上来自AI算法对规则的依赖性。要想让AlphaZero下好各种棋,人类需要明确地教它各种棋的规则。以国际象棋为例,AlphaZero知道象只能斜着走,还不能跨过障碍物,而马可以跨过障碍物,但需要走“日”字。AlphaZero也知道什么是输赢和平局。

可是一旦更换棋种,人类就需要将新棋种的规则从头教给AlphaZero。

既然这种依赖性限制了目前AI算法的应用范围,那最简单的解决方案,就是去除这种依赖性:人类可以不教AI下棋,只给它一个棋盘。每当AI选择了下一步该如何走时,人类才告诉它这一步合不合法,并且是否导致了输赢或平局。这就是MuZero面临的情境。

对于任何一个游戏或任务,MuZero所掌握的只有一套“思考方式”,并没有该任务的“行为准则”。它不知道国际象棋里的马该怎么走,也不知道将棋中如何达成“王手”。如同第一次见到电脑的小孩,MuZero具有作出推理论断的“思维工具”,但不知道如何才能赢得“扫雷”。

跟人类一样,MuZero的秘诀,在于摸着石头过河,为外部世界建立一个只属于自己的“模型”。在这个内部模型中,MuZero舍弃了一切表面上的规则,只留下对决策有用的信息:价值、策略和奖励。MuZero能为外部世界建立模型,从而指导自己在不同任务中的策略。

要明白这种策略的特殊和有效性,我们可以拿MuZero和AlphaZero的神经网络作对比:任何深度学习算法在面对棋盘时,第一步总是观察。AlphaZero能观察当前棋局,并直接利用计划未来的棋步。这要多亏了它所知道的棋类规则:它明白做出一个动作后的下一个棋局长什么样,并可以在下一个棋局的基础上继续规划棋路。“想象”并评估各种不同的可能性。这样的规划方式,在深度学习上称为“蒙特卡洛树搜索”。

MuZero则没有这种“奢华待遇”:它需要摸索出棋盘上各个子的合法走法,还需要弄清输赢的概念;当然,它的目标与AlphaZero一样,赢就好了,越多越好。但在不清楚规则的情况下,MuZero需要另辟蹊径,利用“表征网络”,将观察到的棋盘状态转换成只属于自己的隐藏状态。我们将当前的棋盘状态称为“O”,MuZero的当前隐藏状态称为“”。

但这时,MuZero遇到了第二个大难题:如何像AlphaZero一样评估未来的各种可能性呢?

不像AlphaZero,不知道棋盘规则的MuZero不能预测棋盘的各种可能状态,因此,MuZero需要从零开始,创造自己对棋路的内部模型。

幸运的是,有了隐藏状态之后,MuZero就能算出状态下可以做出的各种行动(经过学习,MuZero得出的可能行动会越来越符合规则),并能通过“动态网络”,利用MuZero选择的行动和当前潜在状态,推演出。在每一个真实世界的时间点内,MuZero都能利用自己的内部模型和MCTS选择出这一个时间点的最佳行为,并将其应用于真实世界中。

在实际做出了一个最佳行为后,这个行为又能再“回收”,用于训练动态网络,从而改进MuZero的内部模型。

也就是说,由于AlphaZero对规则的掌握,它只需要一个预测网络就能精通棋类。而不能预先知晓规则的MuZero,则需要利用动态网络和表征网络,自己学习并建立一个内在模型,从而学会下棋。

在建立内在模型的过程中,人类不会给MuZero设置任何限制:MuZero可以舍弃任何信息,只保留有用的元素(即价值、策略和奖励)。相比于只需要1个神经网络的AlphaZero,MuZero需要3个神经网络来建立内部模型,从而指导精确规划。

与人类一样,MuZero可以在它的“脑海”中创造任何规则和动态。它的目标是做出最精确、最有效的未来规划。舍弃了“循规蹈矩”的MuZero反而因此获得了极强的可塑性,在截然不同的棋类和电脑游戏中都“得心应手”。

就这样,MuZero这样一个“无师自通”的算法,竟然在AlphaZero引以为傲的棋类游戏中轻松与后者打成了平手。

在国际象棋、将棋和围棋中,MuZero的表现达到甚至超过了AlphaZero。而在雅达利游戏“吃豆人小姐”中,MuZero的表现远超此前表现最佳的R2D2算法得分。在国际象棋、将棋和围棋中,MuZero都能达到AlphaZero的水平,甚至在围棋中稍稍胜过了AlphaZero。这表明MuZero“自学成才”建立的内部模型,或许比AlphaZero的“循规蹈矩”更接近围棋的要义。

在雅达利游戏中,MuZero的表现也非同寻常。以“吃豆人小姐”为例,MuZero的得分为243401.10,相比之下,人类的最高分只有6951.60,是MuZero的1/35。在57个测试用的雅达利游戏中,MuZero在37个中取得了历史最高分,而人类则仅在5个游戏中保持着最佳成绩。

但是,在利用AlphaZero和其他算法攻破了这些游戏后,反而对MuZero隐藏起规则,让它“闭上眼”下棋、“背着手”玩游戏的目的是什么呢?正如本文开头所说,DeepMind和整个AI领域一样,并不在乎国际象棋和雅达利游戏本身。这是一场事关智能的征途,目标是理解智能本身。

牙牙学语的婴儿并不明白动名词的区别,却能在短短几个月内连词成句,甚至创造出只属于他们的句子。生物学家也并非生来就知晓细胞的各种秘密,而是在实验和失败中,一步步对生物世界建立了理论和模型,从而获得深刻洞见。

事实很残酷:循规蹈矩不是智能。事先熟知规则再精通下棋,与先摸索规则、建立内部模型再精通棋路是全然不同的。前者只能困于“棋”中,后者则能将一套“思考方式”搬到各种任务上。前者的例子包括AlphaGo到AlphaZero的各种棋类AI,后者则包括MuZero和于尔根·施密德胡波的著名的“循环世界模型”。

为外界建立内部表征是人类最引以为傲的能力之一。如今在AI身上,这个能力再次证明了自己的价值。MuZero不仅让人类看到了创造人工通用智能的可能性,还为我们打开了一扇通往智能本身的大门:智能究竟是什么?我们离答案似乎越来越近。

UUID: 09c22a2a-c7f9-403a-92fd-d308f5ee3f17

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/环球科学公众号-pdf2txt/2020/2020-12-24_DeepMind全能AI:完全自学规则,攻破多款游戏,表现碾压人类!.txt

是否为广告: 否

处理费用: 0.0087 元