足球是一项综合性非常强的运动,运动员不仅需要具备超出常人的身体素质,还必须掌握十分精湛的技术。对于我们人类而言,要想成为一名好的足球运动员并不容易,更不用说那些“肢体不协调且动作僵硬”的机器人了。如今,由 Google DeepMind 研发的具身智能体——一个微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等。
据介绍,在实验中,与对比基线相比,该机器人奔跑速度快了 181%,转身速度快了 302%,(跌倒后)起身时间缩短了 63%,踢球速度快了 34%,同时也能有效地将各种技能结合起来,远远超出了人们此前对机器人的固有认知。
相关研究论文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”为题,以封面文章的形式已发表在 Science 子刊 Science Robotics 上。
创建通用具身智能,即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体,是人工智能(AI)和机器人领域长期以来共同追求的目标。深度强化学习(deep RL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。然而,对于人形机器人和双足机器人的控制,投入的工作要少得多,这些机器人对稳定性、机器人安全性和自由度数量和适用硬件的可用性提出了额外的挑战。
在这项研究中,Google DeepMind 团队讨论了基于学习的人形机器人全身控制。特别是,他们使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超人们的期望。他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制,为此训练了一个智能体在模拟中进行简化的一对一足球,并直接将学习到的策略部署在真实机器人上。
据论文描述,训练流程包括两个阶段。在第一阶段,研究团队训练了两种技能策略:一个是起身站立;另一个是面对未经训练的对手进行射门得分。在第二阶段,通过提炼技能,并使用一种自我博弈形式的多智能体训练,来训练智能体完成完整的 1v1 足球任务,其中对手是从智能体自身的部分训练副本池中抽取的。
结果发现,与从头开始训练智能体进行完整的 1v1 足球任务相比,这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。据介绍,训练后的智能体展现了敏捷和动态的运动能力,包括行走、侧移、踢球、摔倒后恢复和与球的互动,并将这些技能流畅、灵活地组合在一起。另外,智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。
研究团队表示,这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。然而,该研究还存在一定的局限性,例如领域特定知识和随机化、未利用真实数据进行迁移、未考虑更大尺寸机器人、性能随时间退化、自我博弈设置的不稳定性、奖励项的权重调整等。
在未来的工作中,研究团队提出了两个重点关注的方向。一个令人兴奋的未来工作方向是“多智能体足球”,即训练两个或更多智能体组成的团队。另一个工作方向为“从原始视觉训练足球”,也就是说,仅使用机载传感器进行学习,而不依赖于运动捕捉系统的外部状态信息。