科学家提出全新增强学习算法,玩游戏可完胜人类,或推动AI向真正智能学习体进化

作者: 库珀

来源: Nature

发布日期: 2021-02-25

一项发表在《自然》杂志的研究提出了一类全新的增强学习算法Go-Explore,该算法在雅达利经典游戏中的得分超过了人类顶级玩家和以往的AI系统,在《蒙特祖马的复仇》和《陷阱》系列探索类游戏中达到了目前最先进的水平。该算法改善了对复杂环境的探索方式,是AI向真正智能学习体进化迈出的重要一步。

近年来,人工智能(AI)在强化学习算法的加持下,取得了令人瞩目的成就。比如在围棋、星际争霸II和Dota 2等诸多策略、竞技类游戏中,AI都有着世界冠军级的表现,以及在机器人跑步、跳跃和抓握等技能的自主学习方面,也起到了显著的推动作用。如今,AI可能要变得更“聪明”了。

作为机器学习的一大关键领域,强化学习侧重如何基于环境而行动,其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。但是,这种算法思路有着明显的短板:许多成功案例都要通过精心设计、信息量大的奖励机制才能实现,当遇到很少给予反馈的复杂环境时,强化学习算法就很容易碰壁。

因此,过往的AI难以解决探索困难(hard-exploration)的问题,这类问题通常伴随着奖励稀疏(sparse)且会有欺骗性(deceptive)的奖励存在。

今天,一项发表在《自然》(Nature)杂志的研究提出了一类全新的增强学习算法,该算法在雅达利(Atari 2600)经典游戏中的得分超过了人类顶级玩家和以往的AI系统,在《蒙特祖马的复仇》(Montezuma’s Revenge)和《陷阱》(Pitfall!)等一系列探索类游戏中达到了目前最先进的水平。

论文的主要作者来分别来自OpenAI和Uber AI Labs,他们将这类算法统称为Go-Explore,该类算法改善了对复杂环境的探索方式,或是AI向真正智能学习体进化迈出的重要一步。事实上,Uber AI Labs早在2018年就对外展示了Go-Explore算法在探索游戏中的表现。

AI探索能力受阻的症结在于明确避免“分离”和“脱轨”情况的发生,让智能体通过显式“记住”有希望的状态和区域,并在探索新领域前能返回到这些状态。Go-Explore的算法逻辑为了避免分离,建立了一个智能体在环境中访问过的不同状态的“档案”,从而确保状态不会被遗忘。通过在探索之前先返回,Go-Explore通过在返回时最小化探索来避免脱轨发生,之后它可以纯粹专注于更深入的探索未知区域。成效如何?

Atari benchmark套件是强化学习算法的一个重要基准,是Go-Explore的一个合适的测试平台,因为它包含了一系列不同级别的奖励稀疏性和欺骗性的游戏。在测试中,Go-Explore的平均表现都是“超级英雄”,在11个游戏比赛测试中都超过了之前算法的最高水平。值得关注的是,不同的算法需要使用不同的计算能力。

Go-Explore处理的总帧数与其他分布式强化学习算法相似,尽管旧的算法处理的帧数通常较少,但其中许多算法显示出收敛的迹象(这意味着预计不会有进一步的进展),而且对于其中的许多算法来说,尚不清楚它们是否能够在合理的时间内处理数十亿帧。

此外,Go-Explore的能力不仅限于困难的探索问题,它也为OpenAI gym提供的所有55款Atari游戏找到了具有超人得分的轨迹,这是前所未有的壮举,在这些游戏中,85.5%的游戏轨迹得分高于此前最先进的强化学习算法。

研究人员表示,在实际应用中,通常可以根据领域知识定义有用的特征,Go-Explore可以利用这些易于提供的领域知识,通过构造只包含与探索相关的功能单元来显著提高性能,Go-Explore生成的策略,在Montezuma’s Revenge中平均得分超过170万,超过了现有技术的150倍。不仅在探索类游戏中的表现突出,Go-Explore还能用于机器人。

机器人技术是强化学习一个很有前途的应用,通常很容易定义机器人任务的高层次目标(比如,将杯子放在橱柜中),但定义一个足够密集的奖励函数要困难得多(比如,奖赏所有低级别的运动指令,以便形成向杯子移动、抓住杯子等操作)。而Go-Explore允许放弃这样一个密集的奖励函数,只考虑高级任务的稀疏奖励函数。

更多可能性基于策略的Go-Explore还包括促进探索和稳定学习的其他创新,其中最重要的例如自模仿学习、动态熵增加、软轨迹和动态事件限制,在论文方法部分进行了详细讨论。

研究人员表示,这项工作提出的Go-Explore算法家族的有效性表明,它将在许多领域取得进展,包括机器人技术、语言理解和药物设计等,论文中提到的实例只代表了Go-Explore可能实现的一小部分能力,为未来的算法研究打开许多令人兴奋的可能性。据论文描述,未来工作的一个关键方向是改进学习单元表征,比如通过基于压缩的方法、对比预测编码或辅助任务,这将使Go-Explore能够推广到更复杂的领域。

此外,Go-Explore探索阶段的规划性质也突出了将其他强大的规划算法(如MCTS、RRT等)移植到高维状态空间的潜力,这些新的思路结合提供了丰富的可能性,以提高算法的通用性、性能、鲁棒性和效率。这项工作中提出的见解让人们发现,记忆以前发现的状态,回到它们,然后从中探索的简单逻辑对于人工智能算法不可或缺,这可能是智能体进阶的一个基本特征。

这些见解,无论是在Go-Explore内部还是外部,对于人类创建更强AI系统的能力都有新的启示作用。

UUID: 9e6e29ea-5e6b-454f-95f7-47e6cae99edd

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-02-25_Nature重磅:OpenAI科学家提出全新增强学习算法,玩游戏可完胜人类,或推动AI向真正智能学习体进化.txt

是否为广告: 否

处理费用: 0.0068 元