解读！清华、谷歌等10篇强化学习论文总结

强化学习（Reinforcement Learning，RL）正成为当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同，强化学习强调智能体（agent）与环境（environment）的交互，交互过程中智能体需要根据自身所处的状态（state）选择接下来采取的动作（action），执行动作后，智能体会进入下一个状态，同时从环境中得到这次状态转移的奖励（reward）。

强化学习的目标就是从智能体与环境的交互过程中获取信息，学习状态与动作之间的映射，指导智能体根据状态做出最佳决策，最大化获得的奖励。在强化学习系统中，除了智能体和环境，重要元素还包括价值函数（value function）、策略（policy）以及奖励信号（reward signal）。

Value-based和Policy-based是强化学习算法设计的两大思路。在智能体与环境交互过程中，奖励是智能体在某个状态执行动作后立即得到的反馈，而价值函数则反映了智能体考虑未来的行动之后对所有可能状态的评估。

本文对近两年来发表在ICLR、ICML等AI顶会上有关强化学习的论文进行了解读，以飨读者。