华为诺亚方舟郝建业：深度强化学习的三大挑战

近年来，深度强化学习技术在游戏人工智能领域、推荐系统、搜索系统、网络优化、供应链优化、自动驾驶和芯片设计等领域取得了大量成果。华为诺亚方舟决策与推理实验室主任郝建业博士，近期在北京智源大会上发表了题为《深度强化学习的挑战及落地》的主题演讲。在演讲中，郝建业博士指出，深度强化学习当前存在的挑战主要有三个方面：（1）奖励信号难以设计；（2）强化学习算法学习效率较低；（3）模型泛化能力弱。

针对奖励信号挑战，郝建业提出可以通过双水平优化奖励参数自动地添加奖励修正，引导强化学习智能体获得优异的学习策略，最大化真实环境下的奖励；按照时序分配奖励，基于路径将多智能体的总体Q值分配给每个智能体。

对于算法学习效率挑战，郝建业建议通过先验知识提升新任务的学习效率，主要方法包括策略迁移、价值函数迁移和环境动态迁移。此外，他还提出了基于模型强化学习的环境动力学解耦架构，可以自动将动作维度解耦为不同的部分，再通过解耦预测模型将每个部分建立为子模型，最后将所有的子模型聚合输出新任务的状态和奖励。

模型泛化能力挑战可以通过深度强化学习促使决策多样性的方法解决。郝建业提出了基于演化-深度强化学习框架，在演化架构中，将深度强化学习作为新算子融入该架构，生成多种差异化较大的策略，应用于多目标优化提升新任务的多样性。此外，他还应用该框架于路口交互、窄道会车、高速换直等强交互的自动驾驶仿真器场景，通过演化学习技术实现强交互场景社会车辆行为真实多样，提升仿真真实性。

郝建业指出，深度强化学习的主要应用包括5G网络优化、供应链优化和芯片3D-IO布线优化。在5G网络优化方面，他提出了基于专家经验的多智能体强化学习方法，将显性业务知识嵌入到神经网络中，降低探索空间实现垂直水平多小区间协同优化。在供应链优化问题中，他提出了基于强化学习的分层优化架构，通过最优化派单和车辆行驶路线，实现运输成本的最小化。

在芯片3D-IO布线优化问题中，他提出了基于强化学习的二分图匹配优化方法，将该问题建模为二分图匹配问题，引入最小代价最大流算法完成布线，并根据重要性对IO-BUMP类型排出优先级，实现全局最优。

最后，郝建业认为当前强化学习面临诸多挑战的主要原因可以总结为缺乏有效的监督/协作信号、学习效率低及学习泛化能力弱，并指出深度强化学习难以大规模应用的主要挑战在于虚拟场景和物理场景的隔阂，具体表现为缺乏良好的表征、减小仿真器的依赖以及大规模复杂系统难以设计有效地多智能体强化学习。