AI的棋局,其实也是一部热血成长史

作者: 紫冬君

来源: 中国科学院自动化研究所

发布日期: 2020-12-26 13:32:23

本文介绍了AI在棋类游戏中的发展历程,从西洋跳棋到国际象棋,再到围棋,AI通过不断学习和进化,展示了其在棋局中的惊人能力。文章强调了AI的成长不仅是技术的进步,更是人类智慧的象征,展示了人类在智能技术探索上的不懈努力和成就。

不知你有没有看过最近的两部影视剧:《后翼弃兵》与《棋魂》,或者是出版更久远些的《棋魂》原作动漫呢?方正的盘格上,一招一式中暗藏玄机,沉稳缜密的执棋者共同营造着奥妙无穷的哲学空间,而棋局背后,最让人触动的或许更是棋手们那股在胜败之间全力坚守的劲头。

那么,你想了解一下AI的棋局吗?抛开新闻里充斥的“战胜人类”威胁论,试试以一种只把AI看作一个棋手的方式。你或许会发现,它其实也一样,在长久的光阴里,一步步成长,与对手战斗,也挑战自己。还有点不同的是,它的成长不止属于自己,而是更像一个象征,凝结着近百年间人类科学家探索人工智能技术的智慧与成绩,讲述着人类挑战智能技术更高峰的热血坚持。

挑战任务:西洋跳棋

西洋跳棋是一种在8x8格的两色相间的棋盘上进行的技巧游戏,以吃掉或堵住对方所有棋子去路为胜利,棋子每次只能向斜对角方向移动,但如果斜对角有敌方棋子并且可以跳过去,那么就把敌方这个棋子吃掉。

大战回顾:成功秘诀:自我对弈

在和罗伯特·雷尼的比赛之后,尼雷表示,计算机走得极其出色,甚至没有一步失误。这是他自1954年以来8年中遇到的第一个击败他的“对手”。通过自我对弈学习评价函数是西洋跳棋AI程序的核心技术,自我对弈学习评价函数的基本原理是利用两个副本进行对弈,学习线性评价函数每个特征的权重。

挑战任务:国际象棋

国际象棋起源于亚洲,后由阿拉伯人传入欧洲,成为国际通行棋种,也是一项受到广泛喜爱的智力竞技运动。国际象棋棋盘由横、纵各8格、颜色一深一浅交错排列的64个小方格组成,棋子共32个,分为黑、白两方,每方各16个。和8x8的西洋跳棋相比,国际象棋的状态复杂度从10^21上升到10^46,博弈树复杂度也从10^31上升到10^123。人工智能研究者对国际象棋的挑战持续了半个世纪。

成功秘诀之一:国际象棋加速芯片

“深蓝”计算机在硬件上将通过计算机处理器与象棋加速芯片相结合,采用混合决策的方法,即在自动处理器上执行运算分解任务,交给国际象棋加速芯片并行处理复杂的棋步自动推理,然后将推理得到的可能行棋方案结果返回通用处理器,最后由通用处理器决策出最终的行棋方案。

成功秘诀之二:知识规则引擎

“深蓝”在软件设计上采用了超大规模知识库结合优化搜索的方法。一方面,“深蓝”储存了国际象棋100多年来70万份国际特级大师的棋谱,能利用知识库在开局和残局阶段节省处理实践并得出更合理的行棋方案;另一方面,“深蓝”采用Alpha-Beta剪枝搜索算法和基于规则的方法对棋局进行评价。

挑战任务:围棋

到了19x19格的围棋,其状态复杂度已上升到10^172,博弈树复杂度则达到惊人的10^360,因此被视为人类在棋类人机对抗中最后的堡垒。破局出现在2016年,Deep Mind公司开发出的AlphaGo在没有任何让子的情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。

成功秘诀之一:蒙特卡罗树搜索

在机器博弈中,每步行棋方案的运算时间、堆栈空间都是有限的,只能给出局部最优解,因此,2006年提出的蒙特卡罗树搜索就成为随机搜索算法的首选。

成功秘诀之二:策略网络与价值网络

策略网络是一个模型,它使用深度学习、监督学习、增强学习等方法来预测下一步棋“大概”该走哪里。价值网络也是一个监督的强化学习的模型,多次线下自我对弈学习的结果为价值网络提供监督信息。

成功秘诀之三:强化学习

强化学习是机器学习的一个重要分支。有监督学习的目标是从一个已经标记的训练集中进行学习,无监督学习的目标是从一堆未标记样本中发现隐藏的结构,而强化学习的目标则是在当前行动和未来状态中获得最大回报。

总体来说,AlphaGo在以下四个方面取得重要突破:自学习能力、捕捉经验能力、发现创新能力、方法具有通用性。

从国际跳棋到堪称是世界上最复杂棋盘游戏的围棋,AI棋手不断突破着技术的上限。棋盘竞赛的喧嚣背后,是机器博弈技术的进步和发展历程。

UUID: cf96f445-f8f8-435d-9b3c-1e5da31e1d21

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院物理所公众号-pdf2txt/2020/中科院物理所_2020-12-26_「转」AI的棋局,其实也是一部热血成长史.txt

是否为广告: 否

处理费用: 0.0081 元