日前,微软亚洲研究院在arXiv平台上正式发表了关于麻将AI系统Suphx的论文,公布了Suphx背后的包括决策流程、模型架构、训练算法等核心技术细节。去年8月,微软亚洲研究院在世界人工智能大会上正式宣布由其研发
的麻将AI系统Suphx成为首个在国际知名专业麻将平台“天凤”上荣升十段的 AI 系统,其实力超越该平台公开
房间顶级人类选手的平均水平。
麻将在亚洲地区拥有上亿玩家,极高的普及度使得很多人都认为麻将是一项十分容易的棋牌类游戏。虽然入门容
易,但要真正打好麻将、精通麻将却十分困难。以国际知名专业麻将平台天凤为例,平台上超过35万的活跃玩家
中,只有不到1%的玩家达到了专业7段及以上的高手水平。
麻将AI 到底有哪些难点?Suphx这一在游戏AI领域具有跨越性的突破具体是如何实现的?近日,微软亚洲研究院
Suphx研发团队在arXiv平台上正式发表论文,公布了Suphx背后的核心技术。
麻将AI系统Suphx主要基于深度强化学习技术。尽管深度强化学习在一系列游戏AI中取得了巨大的成功,但想要
将其直接应用在麻将AI上殊为不易,面临着若干挑战。
Suphx的打牌策略包含5个需要训练的模型,以应对麻将复杂的决策类型——丢牌模型、立直模型、吃牌模型、碰
牌模型以及杠牌模型,5个模型都基于深度残差卷积神经网络。另外Suphx还有一个基于规则的赢牌模型决定在可
以赢牌的时候要不要赢牌。
Suphx训练过程分为三个主要步骤:首先使用来自天凤平台的高手打牌记录,通过监督学习来训练这5个模型,然
后使用自我博弈强化学习以及由微软亚洲研究院Suphx研发团队设计的两个技术解决麻将本身的独特性所带来的
挑战,最后在实战时采用在线策略自适应算法来进一步提高Suphx的能力。
在经历这样的训练后,Suphx就可以“出道”了。Suphx已在天凤平台特上房和其他玩家对战了5000多场,达到
了该房间目前的最高段位10段,其安定段位达到了8.7段,超过了平台上另外两个知名AI以及顶级人类选手的平均
水平。
未来,Suphx将不只是一个麻将AI。Suphx在天凤平台上取得的成绩只是一个开始,未来,微软亚洲研究院将为Suphx引入更多新技术,继续推动麻将AI和不完美信息游戏研究的前沿。