让AI更“聪明”，我开始带它打游戏

为了让人工智能更“聪明”，我开始带它打游戏……兴军亮

中科院物理所2022-06-08 12:11:11转自公众号：格致论道讲坛http://mp.weixin.qq.com/s?__biz=MzIwNTQxMjY0MQ==&mid=2247557076&idx=1&sn=a0237864df在人工智能研究的不同历史时期，都会找到不同复杂度的游戏作为测试人工智能技术主要难题的技术试验场。

兴军亮·中国科学院自动化研究所研究员格致论道第67期 | 大家好，我是兴军亮。我的演讲题目叫《游戏与智能》就是让人工智能学会怎么打各种游戏。希望今天这个报告能让大家对游戏的理解更深刻一点。

我小时候也是老师和家长眼中标准的好学生很少接触到我博士研究以及工作初期时做的内容其实跟也没有太大关系当时我主要研究的是与人脸和人体图像相关的任务每天都在设计各种人脸人体图像识别的算法我们设计了上百种算法发表了近百篇顶级国际会议和期刊的论文很多算法也在很多企业中得到了应用比如大家现在使用手机里面的一些拍照功能还有一些美颜功能我们研究的感知算法基本上就是在教AI识别是什么即识别图片里是张三还是李四是车还是桌子等等但我慢慢发现如果只是让AI学会这类问题离最终想达到的人工智能目标可能相差甚远而且到年的时候感到这个领域已经非常成熟了再往下做可能将没有空间甚至会面临失业于是年开始思考下一步该做些什么然后在年阿尔法狗横空出世我们发现让计算机去下围棋这件事情其实是在解决一个更重要的问题认知即不光要知道是什么更要一步一步地去做去明白为什么这么做就会赢由于当时觉得这个问题非常有意思就开始考虑怎么转向这个方向无奈之下开始打各种不断学习一些教程练习自己的手速希望能通关打着打着自己都差点上瘾觉得非常有意思但毕竟是做研究觉得有意思不光是这些玩的时候很有意思还是里面的设置也非常有意思非常适合用来研究一些基本的科学问题所以在年坚决地转向了这个并且一直持续做到现在可以看到对于生物的发展起着非常重要的作用那么对于也有可能是发展的一个必要条件那实际情况是什么呢？

在整个人类发展的过程中确实一直密切伴随着的发展早在创始时期英国一位被称为之父同时也是计算机科学之父的在就提出了一个重要概念图灵测试提供了评估水平一个非常简单的方法把图灵测试理解成一个人和一个机器玩的猜真假的游戏然后在IBM研究院的设计了一款具有一定自学能力的程序他让这个程序学下西洋跳棋一段时间后他就发现自己已经打不过接着他继续不断学习到了年就已经能够打败美国的州冠军这是第一次在一个比较复杂的击败人类的高水平选手其实在发展的不同阶段一直是实验场比如年的深蓝战胜国际象棋的世界冠军卡斯帕罗夫引起了世界性的轰动但我们知道成功的原因还在于超级计算能力虽然可能在当时的机器没法比但它已经在每秒钟评估超一亿种使得世界冠军也甘拜下风之后到了年年大家已经非常了解的事件阿尔法狗采用了深度强化学习技术会更加能够在每秒仅搜索大概次左右的情况下就找到一个好的答案但是否解决了真实的人工智呢？

远远没有因为有着明确的规则确定的边界并且双方都可以看到整个信息决策复杂度大概是这样的已经是目前人类解决的最复杂的之一但它跟现实中的实际还相差甚远比如开放环境下的现实决策问题的复杂度会远远超过举办这场大会要涉及到多个环节需要人们去安排协调事务如果让它肯定是不会做的但是我们就能很好地有条不紊地把组织起来所以现有的人离真正还有很长一段距离那么如何从百级的指数跨越到万级的这就需要一些新环境去答案只不过这一次需要电子如王者荣耀星际争霸刀塔等等它们的适合用来训练超越所以在不同的历史时期都会找到作为的主要难题的技术试验场总结了一下包括真实模拟确定边界上帝标准无损探索以及有趣益智这里解释一下上帝标准是指评测实际上站在视角评价从而能够给他们公正的分使得顺利开展而指的是在里面做出的动作都不会对产生任何伤害特别适合在里面任意做出选择进行然后得到更好的结果带领的研究团队筛选了一些上图列出了最简单的单机麻将这种实时策略以足球首先看看大多数这种来自外国公司可以说是现代主机的鼻祖这类有各种各样的类型包括探索类竞速类动作射击策略等在这种设定是完全一样的只能看到画面然后规定输出的典型动作就是上下左右跳跃等等唯一指引的动力或者信号就是在偶尔会得到的分数或者奖励为了最大程度地去获取分数就会在这里面不断地等它找到了合适的调整背后的神经网络模型更好地做出灵敏的动作然后再不断在这些小都能达到的操作水平甚至很多比操作得更好再用探索类的解释什么对有帮助上图左侧是一个典型的里面的就在中间那段小梯子上面目标是走出迷宫就必须通过右边那扇门要想走出必须拿到左边钥匙底下骷髅头会让死掉一开始什么都不知道就在里面经过之后就能发现一条很好的路径可以看到先跳到那里下去爬上去拿到钥匙最后走出去这是一个很的过程在这个复杂的决策过程中摸索一步步走下去慢慢地为什么要这么走而当面临选择的时候该怎么失败怎么办有很多候选时候这都背后原理很像所以就可以更容易人的并在不断的变聪明的过程了解到是怎么形成除了外我们还做了款叫德州扑克的游戏每个人先发两张只有自己看得到的牌然后再发五张所有人都能看到的公共牌拿着自己的两张牌和公共的去组合出五最大的谁更大谁就赢一般进行四轮它的难点在于每个人手上都有两持有的也不一定会输因为可以假装很大押很大的注把对方给吓跑这就涉及到不完全信息的博弈问题非常有意思是用了大概十几台电脑每台电脑上有个集中这么大的算力总共打了局下图是的在学习情况上方的拿了不同色的这两张其实很小但是突然押了一个很大的注实际上是在虚张声势用专业术语叫诈唬就是把对方给吓跑下面这张用自己的牌跟组合拿到了在这种情况下很大但又假装弱生怕把对方给跑了这个时候又耍了个心思诱敌深入最后赢了的计谋呈现出相互克制的结果呈现出相互克制的结果呈现出了第二名的成绩再看另外一个比赛这里的配合战术战法都会更加其数量级还处于前期取得了初步成果通过下图可以看到学会了快速突防门前补射等战术现在的控制最近的其他的十个人都是遵循特定的规则完成的未来希望能够使同时并配合得到更好的结果我们也希望这些提升的水平当然这很难除了是否还有一些现实的义呢？

各行各业都非常广泛的应用最直接的是产业引入后可以让更加有趣情节吸引人引进可能会被吸引所以的要求可能会严格除了产业个人助理推荐无人驾驶芯片支持等领域也都是技术的场景以为实现就好但实际上有一个很明显的一旦一款攻破一旦实现之后就不属于了这个既是比较残酷的给我们带来可以通过进步也许某一天在某领域战胜人了还需要完成些的任务以更好地帮助直到最后得到真正的终极谢谢文章演讲仅代表作者观点不代表立场未经授权严禁转载至微信以外的平台！