强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。本期特推出20篇强化学习必读论文。
1. Emergent Tool Use From Multi-Agent Autocurricula
作者:Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
本篇论文作者前六位来自Open AI, 第七位作者来自Google Brain. OpenAI 是在游戏开发行业中使用机器学习的领先者之一。此论文展示了一个游戏 AI 演示,它学习如何在捉迷藏游戏中形成自己的获胜策略。
2. Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
作者:Kate Rakelly, Aurick Zhou, Deirdre Quillen, Chelsea Finn, Sergey Levine
这篇论文由 Berkeley Artificial Intelligence Research (BAIR) Lab 发表在 ICML 2019 上。主要贡献在于提出了一种新的视角来解决元学习中任务的学习样本利用率不高的问题。
3. Guided Meta-Policy Search
作者:Russell Mendonca, Abhishek Gupta, Rosen Kralev, Pieter Abbeel, Sergey Levine, Chelsea Finn
传统的元强化学习方法在 meta-training 过程中需要大量的数据,因为很多是 on-policy 的。在许多问题中很难满足。本篇论文探索在元学习阶段(learn a RL procedure;外循环)提供监督信息,实际使用有监督的模仿学习,这样可以充分利用 off-policy 数据。
4. Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning
作者:Harm van Seijen, Mehdi Fatemi, Arash Tavakoli
为了更好地了解折现系数的不同方式是如何影响强化学习的优化过程,本篇论文设计了一套单独研究每种效果的实验。
5. Distributional Reinforcement Learning for Efficient Exploration
作者:Borislav Mavrin, Shangtong Zhang, Hengshuai Yao, Linglong Kong, Kaiwen Wu, Yaoliang Yu
在分布强化学习中,价值函数模型的估计分布具有参数和固有的不确定性。本篇论文具有两个组成部分的深度强化学习提供一种新颖且有效的探索方法。
6. How to Combine Tree-Search Methods in Reinforcement Learning
作者:Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor
本篇论文作者来自以色列理工学院、法国国家信息与自动化研究所。获得 2019 年 AAAI 会议的最佳论文奖。
7. Better Exploration with Optimistic Actor Critic
作者:Kamil Ciosek, Quan Vuong, Robert Loftin, Katja Hofmann
本文是一个对 actor-critic 算法的改进,这是一种无模型的强化学习算法,它被用于解决连续的控制任务。
8. Policy Certificates: Towards Accountable Reinforcement Learning
作者:Christoph Dann, Lihong Li, Wei Wei, Emma Brunskill
当前强化学习算法很少在执行之前提供有关其当前策略质量的信息,本篇论文提出算法输出策略证书的方法来解决这一问题。
9. Rainbow: Combining Improvements in Deep Reinforcement Learning
作者:Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Daniel Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, David Silver
本篇论文的核心思想在于将深度 Q-Networks 算法的改进方法结合在一起,形成一个全能的网络,被命名为 Rainbow。
10. Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models
作者:Kurtland Chua, Roberto Calandra, Rowan McAllister, Sergey Levine
本文主要关注在 model-based 方法中利用什么模型以及如何利用模型的问题。
11. Model-Ensemble Trust-Region Policy Optimization
作者:Thanard Kurutach, Ignasi Clavera, Yan Duan, Aviv Tamar, Pieter Abbeel
12. Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion
作者:Jacob Buckman, Danijar Hafner, George Tucker, Eugene Brevdo, Honglak Lee
13. Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning
作者:Vladimir Feinberg, Alvin Wan, Ion Stoica, Michael I. Jordan, Joseph E. Gonzalez, Sergey Levine
14. Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning
作者:Natasha Jaques, Angeliki Lazaridou, Edward Hughes, Caglar Gulcehre, Pedro A. Ortega, Dj Strouse, Joel Z. Leibo, Nando de Freitas
15. Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection
作者:Sergey Levine, Peter Pastor, Alex Krizhevsky, Julian Ibarz, Deirdre Quillen
16. Noisy Networks For Exploration
作者:Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Matteo Hessel, Ian Osband, Alex Graves, Volodymyr Mnih, Remi Munos, Demis Hassabis, Olivier Pietquin, Charles Blundell
17. Neural Architecture Search with Reinforcement Learning
作者:Barret Zoph, Quoc V. Le
18. A Distributional Perspective on Reinforcement Learning
作者:Marc G. Bellemare, Will Dabney, Rémi Munos
19. Evolution Strategies as a Scalable Alternative to Reinforcement Learning
作者:Tim Salimans, Jonathan Ho, Xi Chen, Ilya Sutskever
20. Value Prediction Network
作者:Junhyuk Oh, Satinder Singh, Honglak Lee