微软亚洲研究院公开麻将AI Suphx的十段秘籍

作者: Suphx团队

来源: 微软研究院AI头条

发布日期: 2020-04-11

微软亚洲研究院开发的麻将AI系统Suphx在“天凤”平台上荣升十段,公布了其背后的核心技术细节,包括决策流程、模型架构和训练算法。Suphx通过深度强化学习技术应对麻将的复杂性,训练过程包括监督学习、自我博弈强化学习和在线策略自适应算法。Suphx已在天凤平台特上房对战5000多场,达到最高段位10段,未来将继续推动麻将AI和不完美信息游戏研究。

日前,微软亚洲研究院在arXiv平台上正式发表了关于麻将AI系统Suphx的论文,公布了Suphx背后的包括决策流程、模型架构、训练算法等核心技术细节。去年8月,微软亚洲研究院在世界人工智能大会上正式宣布由其研发

的麻将AI系统Suphx成为首个在国际知名专业麻将平台“天凤”上荣升十段的 AI 系统,其实力超越该平台公开

房间顶级人类选手的平均水平。

麻将在亚洲地区拥有上亿玩家,极高的普及度使得很多人都认为麻将是一项十分容易的棋牌类游戏。虽然入门容

易,但要真正打好麻将、精通麻将却十分困难。以国际知名专业麻将平台天凤为例,平台上超过35万的活跃玩家

中,只有不到1%的玩家达到了专业7段及以上的高手水平。

麻将AI 到底有哪些难点?Suphx这一在游戏AI领域具有跨越性的突破具体是如何实现的?近日,微软亚洲研究院

Suphx研发团队在arXiv平台上正式发表论文,公布了Suphx背后的核心技术。

麻将AI系统Suphx主要基于深度强化学习技术。尽管深度强化学习在一系列游戏AI中取得了巨大的成功,但想要

将其直接应用在麻将AI上殊为不易,面临着若干挑战。

Suphx的打牌策略包含5个需要训练的模型,以应对麻将复杂的决策类型——丢牌模型、立直模型、吃牌模型、碰

牌模型以及杠牌模型,5个模型都基于深度残差卷积神经网络。另外Suphx还有一个基于规则的赢牌模型决定在可

以赢牌的时候要不要赢牌。

Suphx训练过程分为三个主要步骤:首先使用来自天凤平台的高手打牌记录,通过监督学习来训练这5个模型,然

后使用自我博弈强化学习以及由微软亚洲研究院Suphx研发团队设计的两个技术解决麻将本身的独特性所带来的

挑战,最后在实战时采用在线策略自适应算法来进一步提高Suphx的能力。

在经历这样的训练后,Suphx就可以“出道”了。Suphx已在天凤平台特上房和其他玩家对战了5000多场,达到

了该房间目前的最高段位10段,其安定段位达到了8.7段,超过了平台上另外两个知名AI以及顶级人类选手的平均

水平。

未来,Suphx将不只是一个麻将AI。Suphx在天凤平台上取得的成绩只是一个开始,未来,微软亚洲研究院将为Suphx引入更多新技术,继续推动麻将AI和不完美信息游戏研究的前沿。

UUID: ec0573f0-2019-495f-a6c4-fcb2c70f94c9

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/环球科学公众号-pdf2txt/2020/2020-04-11_微软亚洲研究院公开麻将AISuphx的十段秘籍.txt

是否为广告: 否

处理费用: 0.0049 元