DeepMind再获突破,AI玩转西洋陆军棋,跻身历史top3

来源: 学术头条

发布日期: 2022-12-02 07:00:27

DeepMind的AI代理DeepNash在西洋陆军棋Stratego中表现出色,以97%的最低胜率击败其他AI机器人,并在Gravon平台上与人类专业玩家对弈中取得84%的总胜率,跻身历史前三。DeepNash在没有使用搜索方法的情况下实现了这一成就,使用了无模型的深度强化学习方法R-NaD。

对棋类游戏的掌握程度,一直是判断人工智能(AI)是否真正智能的依据之一,因为这类游戏可以用来评估AI代理在受控环境下自主开发和执行策略的能力。如今,AI在此前尚未掌握的经典棋类游戏Stratego(西洋陆军棋)中,表现出了人类专家级一般的水准——以97%的最低胜率击败了其他AI机器人;在Gravon平台上与人类专业玩家对弈,取得了84%的总胜率,在年初至今和历史排行榜上都排在前三名。

值得注意的是,这一惊人表现是在没有部署任何搜索方法的情况下实现的,这是AI之前在棋类游戏中取得多个里程碑式成就的关键。相关研究论文以“Mastering the game of Stratego with model-free multiagent reinforcement learning”为题,已发表在权威科学期刊Science上。

多年来,Stratego一直是人工智能行业的下一个前沿领域之一。Stratego玩家既需要有像玩国际象棋一样的长期战略性思考,也需要能够像打扑克一样处理不完全的信息。不完全信息,意味着参与人在进行博弈时不清楚博弈中的某些要素。例如,在桥牌游戏中,玩家并不清楚其他玩家手中的牌,在拍卖会中,竞拍人并不清楚其他竞拍人对物品的估价。

这个名为“DeepNash”的AI代理出自DeepMind,在他们看来,这代表了一个非凡的成果;同样,Stratego社区也认为,这用现有技术是不可能实现的。

Stratego诞生于1947年,与中国陆军棋不同,其军衔、棋子数量较多,棋盘设计较为简单,没有铁路、行营,也没有裁判,当两方棋子相遇后,才会揭开来判断大小。二者的相同之处,都是以夺得对方军旗或消灭所有可移动的棋子为胜利标志。

Stratego是一种不完全信息游戏。与之相反,国际象棋、跳棋、日本将棋和围棋可看作完全信息博弈,因为双方完全清楚游戏规则,当前局面对方可能的下法等信息。而且,Stratego具有非常复杂的结构,其博弈树具有10^535种可能的状态,比无限德州扑克(10^164)和围棋(10^360)都要多。

另外,在特定情况下,Stratego玩家需要在游戏开始时推理出多于10^66对可能的排布,而在德州扑克中,这一数字仅为10^6;完全信息游戏则没有这一阶段,相对更为简单。

在Stratego中,双方各有代表元帅(Marshal)、将军(General)、上校(Colonel)、中校(Major)、上尉(Captain)、中尉(Lieutenant)、士官(Sergeant)、除雷兵(Miner)、斥侯(Scout)、间谍(Spy)、地雷(Bomb)、军旗(Flag)的棋子。

具体游戏规则为:两方将所有己棋竖立、以正面朝后的方式排布,然后轮流移动一枚己棋;可以将棋子沿纵横方向移动一格至空格或敌棋处,但需要维持正面朝后;如果一方棋子到达敌棋处,便将两棋公开,一般胜方这一棋子会被放回原位且正面继续朝后,输方这一棋子则被移除游戏。

提前计划的能力,一直判断某一AI技术/代理是否成功的核心问题,Stratego等不完全信息游戏,则常被用来测试AI代理依次做出相对缓慢、慎重和合乎逻辑的能力大小。然而,目前利用不完全信息搜索技术来掌握Stratego是不可能的。据论文描述,DeepNash使用了一种博弈论的、无模型的深度强化学习方法R-NaD,无需搜索,便能以从头开始的自我博弈方式来学习如何掌握游戏策略,比如虚张声势。

展望未来,目前还没有迹象表明R-NaD在零和的双人游戏设定之外会如何发展。然而,研究团队却认为,它或许可以解锁深度学习方法在现实世界中具有不完全信息特征的巨大空间的多智能体问题中的进一步应用。例如,最先进的双人扑克方法已经成功应用在六人扑克中。该方法在这类不完全信息场景下或许有很多潜在应用,包括人群和交通建模、智能电网、拍卖设计和市场问题等。

UUID: 8e2eec32-2908-449b-aa81-cff48f3e55c7

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2022年/学术头条_2022-12-02_Science:DeepMind又一突破,AI玩转了西洋陆军棋,跻身历史top3.txt

是否为广告: 否

处理费用: 0.0048 元