用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类

来源: 机器之心

发布日期: 2022-11-08 17:30:49

一项研究显示,一个名为KataGo的围棋AI在自我博弈中被另一个AI击败,尽管KataGo曾战胜过其他顶级AI,如ELF OpenGo和Leela Zero。研究者通过训练一个对抗策略,仅用0.3%的计算资源就达到了99%的胜率,接近欧洲前100名围棋选手的水平。然而,该对抗策略无法战胜人类玩家,即使是业余选手也能轻易胜过它。

近几年来,自我博弈中的强化学习已经在围棋、国际象棋等一系列游戏中取得了超人的表现。此外,自我博弈的理想化版本还收敛于纳什均衡。纳什均衡在博弈论中非常著名,该理论是由博弈论创始人,诺贝尔奖获得者约翰·纳什提出,即在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。

如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。

之前就有研究表明,自我博弈中看似有效的连续控制策略也可以被对抗策略利用,这表明自我博弈可能并不像之前认为的那样强大。这就引出一个问题:对抗策略是攻克自我博弈的方法,还是自我博弈策略本身能力不足?

为了回答这个问题,来自MIT、UC伯克利等机构的研究者进行了一番研究,他们选择自我博弈比较擅长的领域进行,即围棋(Go)。具体而言,他们对公开可用的最强围棋AI系统KataGo进行攻击。

针对一个固定的网络(冻结KataGo),他们训练了一个端到端的对抗策略,仅用了训练KataGo时0.3%的计算,他们就获得了一个对抗性策略,并用该策略攻击KataGo,在没有搜索的情况下,他们的策略对KataGo的攻击达到了99%的胜率,这与欧洲前100名围棋选手实力相当。而当KataGo使用足够的搜索接近超人的水平时,他们的胜率达到了50%。

至关重要的是,攻击者(本文指该研究学到的策略)并不能通过学习通用的围棋策略来取胜。

这里我们有必要说一下KataGo,正如本文所说的,他们在撰写本文时,KataGo还是最强大的公开围棋AI系统。在搜索的加持下,可以说KataGo非常强大,战胜了本身就是超人类的ELF OpenGo和Leela Zero。现在该研究的攻击者战胜KataGo,可以说是非常厉害了。

有趣的是,该研究提出的对抗策略无法战胜人类玩家,即使是业余选手也能大幅胜过所提模型。攻击方法KataGo、AlphaZero等之前的方法通常是训练智能体自己玩游戏,游戏对手是智能体自己。而在MIT、UC伯克利等机构的这项研究中,攻击者(adversary)和固定受害者(victim)智能体之间进行博弈,利用这种方式训练攻击者。该研究希望训练攻击者利用与受害者智能体的博弈交互,而不仅仅模仿博弈对手。

这个过程被称为「victim-play」。

在常规的自我博弈中,智能体通过从自己的策略网络中采样来建模对手的动作,这种方法的确适用于自我博弈。但在victim-play中,从攻击者的策略网络中建模受害者的方法就是错误的。

为了解决这个问题,该研究提出了两类对抗型MCTS(A-MCTS),包括:A-MCTS-S:在A-MCTS-S中,研究者将攻击者的搜索过程设置如下:当受害者移动棋子时,从受害者策略网络中采样;当轮到攻击者移动棋子时,从攻击者策略网络中采样。A-MCTS-R:由于A-MCTS-S低估了受害者的能力,该研究又提出了A-MCTS-R,在A-MCTS-R树中的每个受害者节点上为受害者运行MCTS。

然而,这种变化增加了攻击者训练和推理的计算复杂性。

在训练过程中,该研究针对与frozen KataGo受害者的博弈来训练对抗策略。在没有搜索的情况下,攻击者与KataGo受害者的博弈可以实现>99%的胜率,这与欧洲前100名围棋选手的实力相当。此外,经过训练的攻击者在与受害者智能体博弈的64个回合中实现了超过80%的胜率,研究者估计其实力与最优秀的人类围棋棋手相当。

值得注意的是,这些游戏表明,该研究提出的对抗策略并不是完全在做博弈,而是通过欺骗KataGo在对攻击者有利的位置落子,以过早地结束游戏。事实上,尽管攻击者能够利用与最佳人类围棋选手相当的博弈策略,但它却很容易被人类业余爱好者击败。

为了测试攻击者与人类对弈的水平,该研究让论文一作Tony Tong Wang与攻击者模型实际对弈了一番。Wang在该研究项目之前从未学习过围棋,但他还是以巨大的优势赢了攻击者模型。这表明该研究提出的对抗性策略虽然可以击败能战胜人类顶级玩家的AI模型,但它却无法击败人类玩家。这或许可以说明一些AI围棋模型是存在bug的。

评估结果攻击受害者策略网络首先,研究者对自身攻击方法对KataGo (Wu, 2019)的表现进行了评估,结果发现A-MCTS-S算法针对无搜索的Latest(KataGo的最新网络)实现了99%以上的胜率。如下图3所示,研究者评估了自身对抗策略对Initial和Latest策略网络的表现。他们发现在大部分训练过程中,自身攻击者对两个受害者均取得很高的胜率(高于90%)。

但是随着时间推移,攻击者对Latest过拟合,对Initial的胜率也下降到20%左右。研究者还评估了对Latest的最佳对抗策略检查点,取得了超过99%的胜率。并且,如此高的胜率是在对抗策略仅训练3.4 × 10^7个时间步长的情况下实现的,这一数据是受害者时间步长的0.3%。

迁移到有搜索的受害者研究者将对抗策略成功地迁移到了低搜索机制上,并评估了上一节训练的对抗策略对有搜索Latest的能力。如下图4a所示,他们发现在32个受害者回合时,A-MCTS-S对受害者的胜率下降到了80%。但这里,受害者在训练与推理时都没有搜索。

此外,研究者还测试了A-MCTS-R,并发现它的表现更好,在32个受害者回合时对Latest取得了超过99%的胜率,但在128个回合时胜率下降到10%以下。在图4b中,研究者展示了当攻击者来到4096个回合时,A-MCTS-S对Latest最高取得了54%的胜率。这与A-MCTS-R在200个回合时的表现非常相似,后者取得了49%的胜率。

其他评估如下图9所示,研究者发现,尽管Latest是一个更强大的智能体,但针对Latest训练的攻击者在对抗Latest时要比Initial表现更好。最后,研究者探讨了攻击原理,包括受害者的value预测和硬编码防御评估。如下图5所示,所有的基线攻击都要比他们训练的对抗策略表现差得多。更多技术细节请参阅原论文。

UUID: 0f05ee13-7bbb-4c47-b93d-f55fb84290bd

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2022年/学术头条_2022-11-08_用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类.txt

是否为广告: 否

处理费用: 0.0065 元