深度强化学习(deep RL)近年来取得了令人瞩目的进步,在Atari游戏、围棋等领域战胜了人类。但是,在面对不确定环境、不完全信息的任务时仍然面临很大的挑战。如何求解非完全信息、不确定条件下的决策问题成为当前人工智能面临的重要挑战。
清华大学人工智能研究院基础理论研究中心聚焦这一问题,开展了一系列理论和关键技术研究,自研了深度强化学习算法平台“天授”,日前向业界开源(https://github.com/thu-ml/tianshou)。“天授”源自《史记》,意为“取天所授而非学自人类”,刻画了强化学习通过与环境进行交互自主学习,而不需要像监督学习一样需要大量人类标注数据。
清华大学团队针对目前多数既有强化学习平台(如RLLib和BaseLine)等无法支持高效、定制化的训练场景的问题,继承了首版TensorFlow“天授 0.1”版在模块化等方面的优势,推出了基于PyTorch框架的“天授 0.2”版本。
相比较目前的几种PyTorch强化学习平台,多数存在框架结构复杂、二次开发困难、对用户不友好等问题,在朱军、苏航等老师的指导下,由翁家翌牵头、张鸣昊和阎栋等参与下,在前期课题组阎栋、邹昊晟、任桐正等“天授 0.1”版本的基础上,开展“天授 0.2”版本的研制。
“天授”针对现有平台训练速度慢的缺点,在并行采样基础上提高数据收集能力,采用了cache_buffer配合trainer联动即可达到每秒5000-6000 fps的速度;同时注重代码模块化设计,通过避免不必要的额外运算,将reward normalization等现有各类实现中被证明行之有效的各种改进吸纳进“天授 0.2”版本。
通过PyTorch重写底层机制,“天授 0.2”主要特点包括:代码实现简洁:目前整个框架代码量约为1500行左右,但已经可以完整支持PG,DQN,DDQN,A2C,DDPG,PPO,TD3,SAC等主流强化学习算法。模块化:所有策略实现都被拆解成4个模块,只要完善了框架给定的接口就能在100行之内完整实现一个强化学习算法。可复现性:天授 0.2利用Github Actions进行单元测试。
每一次单元测试除了基本功能的测试之外,还包括针对所有算法的完整训练过程,也就是说一旦有一个算法没办法train出来结果,单元测试不能通过。据我们所知,得益于天授快速的训练机制,天授是目前唯一一个采用这种标准进行单元测试的强化学习框架。接口灵活:用户可以定制各种各样的training方法。提供示例,方便用户根据自己的需要进行二次开发。
训练速度快:目前针对支持的测试场景,天授 0.2比既有主流强化学习平台具有更好的性能,尤其在训练复杂度方面。
清华大学人工智能研究院基础理论研究中心在不完全信息决策方面近年来取得过诸多重要成果。早在2017年,首次参赛的该团队就在基于《毁灭战士》的ViZDoom AI比赛中获得了亚军,并于2018年获得该项目的冠军,这也是该赛事来自中国赛区的首个冠军。
与此同时,该团队在不完全信息决策的理论方面也取得了一系列重要成果,多篇工作发表在人工智能领域顶级国际会议ICML、ICLR上。
其中将博弈论和多智能体结合的新算法被ICLR 2020接受为口头报告(接受率<1.9%),被评审评价为将博弈论和强化学习之间建立了崭新的联系(novel connections between Game Theory and RL,https://openreview.net/forum?id=Syg-ET4FPS¬eId=Syg-ET4FPS)。
关于未来的工作,团队负责人朱军教授表示,将在既有工作基础上,从三个维度拓展“天授”平台,从算法层面来讲,将对目前主流强化学习算法进行更加前面的支持,包括model-based RL, imitation learning等;从任务层面来讲,将进一步支持包括Atari、VizDoom等复杂任务;从性能上来讲,将进一步提升平台在模型性能、训练速度、鲁棒性等方面的核心指标,更好的为学术界服务。
朱军教授强调,不完全信息决策是实验室未来布局的重点方向,也是清华大学在“鲁棒、安全、可拓展、可理解”的第三代人工智能研究方面的重要布局。
据悉,清华大学人工智能研究院依托计算机科学与技术系,电子系、自动化系等院系共建,于2018年成立,围绕“一个核心,两个融合”的宗旨,服务国家和清华大学的人工智能战略。2019年5月成立基础理论研究中心,由朱军教授担任主任。
该中心着眼于目前人工智能发展的瓶颈问题,以建立人工智能的原创性基础理论为目标,通过和脑科学、认知科学和统计学等学科的大跨度学科交叉融合,发展鲁棒、可理解、数据高效和安全的人工智能。“天授”是继“珠算”可微分概率编程库(https://github.com/thu-ml/zhusuan)之后,该中心推出的又一个面向复杂决策任务的编程库。