20篇强化学习研究必读论文速递

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。本期特推出20篇强化学习必读论文。

1. Emergent Tool Use From Multi-Agent Autocurricula

作者：Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

本篇论文作者前六位来自Open AI, 第七位作者来自Google Brain. OpenAI 是在游戏开发行业中使用机器学习的领先者之一。此论文展示了一个游戏 AI 演示，它学习如何在捉迷藏游戏中形成自己的获胜策略。

2. Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

作者：Kate Rakelly, Aurick Zhou, Deirdre Quillen, Chelsea Finn, Sergey Levine

这篇论文由 Berkeley Artificial Intelligence Research (BAIR) Lab 发表在 ICML 2019 上。主要贡献在于提出了一种新的视角来解决元学习中任务的学习样本利用率不高的问题。

3. Guided Meta-Policy Search

作者：Russell Mendonca, Abhishek Gupta, Rosen Kralev, Pieter Abbeel, Sergey Levine, Chelsea Finn

传统的元强化学习方法在 meta-training 过程中需要大量的数据，因为很多是 on-policy 的。在许多问题中很难满足。本篇论文探索在元学习阶段（learn a RL procedure；外循环）提供监督信息，实际使用有监督的模仿学习，这样可以充分利用 off-policy 数据。

4. Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning

作者：Harm van Seijen, Mehdi Fatemi, Arash Tavakoli

为了更好地了解折现系数的不同方式是如何影响强化学习的优化过程，本篇论文设计了一套单独研究每种效果的实验。

5. Distributional Reinforcement Learning for Efficient Exploration

作者：Borislav Mavrin, Shangtong Zhang, Hengshuai Yao, Linglong Kong, Kaiwen Wu, Yaoliang Yu

在分布强化学习中，价值函数模型的估计分布具有参数和固有的不确定性。本篇论文具有两个组成部分的深度强化学习提供一种新颖且有效的探索方法。

6. How to Combine Tree-Search Methods in Reinforcement Learning

作者：Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor

本篇论文作者来自以色列理工学院、法国国家信息与自动化研究所。获得 2019 年 AAAI 会议的最佳论文奖。

7. Better Exploration with Optimistic Actor Critic

作者：Kamil Ciosek, Quan Vuong, Robert Loftin, Katja Hofmann

本文是一个对 actor-critic 算法的改进，这是一种无模型的强化学习算法，它被用于解决连续的控制任务。

8. Policy Certificates: Towards Accountable Reinforcement Learning

作者：Christoph Dann, Lihong Li, Wei Wei, Emma Brunskill

当前强化学习算法很少在执行之前提供有关其当前策略质量的信息，本篇论文提出算法输出策略证书的方法来解决这一问题。

9. Rainbow: Combining Improvements in Deep Reinforcement Learning

作者：Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Daniel Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, David Silver

本篇论文的核心思想在于将深度 Q-Networks 算法的改进方法结合在一起，形成一个全能的网络，被命名为 Rainbow。

10. Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

作者：Kurtland Chua, Roberto Calandra, Rowan McAllister, Sergey Levine

本文主要关注在 model-based 方法中利用什么模型以及如何利用模型的问题。

11. Model-Ensemble Trust-Region Policy Optimization

作者：Thanard Kurutach, Ignasi Clavera, Yan Duan, Aviv Tamar, Pieter Abbeel

12. Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

作者：Jacob Buckman, Danijar Hafner, George Tucker, Eugene Brevdo, Honglak Lee

13. Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning

作者：Vladimir Feinberg, Alvin Wan, Ion Stoica, Michael I. Jordan, Joseph E. Gonzalez, Sergey Levine

14. Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

作者：Natasha Jaques, Angeliki Lazaridou, Edward Hughes, Caglar Gulcehre, Pedro A. Ortega, Dj Strouse, Joel Z. Leibo, Nando de Freitas

15. Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection

作者：Sergey Levine, Peter Pastor, Alex Krizhevsky, Julian Ibarz, Deirdre Quillen

16. Noisy Networks For Exploration

作者：Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Matteo Hessel, Ian Osband, Alex Graves, Volodymyr Mnih, Remi Munos, Demis Hassabis, Olivier Pietquin, Charles Blundell

17. Neural Architecture Search with Reinforcement Learning

作者：Barret Zoph, Quoc V. Le

18. A Distributional Perspective on Reinforcement Learning

作者：Marc G. Bellemare, Will Dabney, Rémi Munos

19. Evolution Strategies as a Scalable Alternative to Reinforcement Learning

作者：Tim Salimans, Jonathan Ho, Xi Chen, Ilya Sutskever

20. Value Prediction Network

作者：Junhyuk Oh, Satinder Singh, Honglak Lee