新研究：利用人类操作视频训练高效具身策略

如何使机器人学习多任务通用具身策略是一项长期的挑战。从近期大语言模型发展的历程看，获得通用知识的关键是从互联网中获得大量数据，使用大规模网络结构和无监督学习目标进行预训练。类似的，学习通用具身策略需要从大量机器人交互数据中获得实体、任务、环境、动作的数据，从而更好的理解环境并作出决策。然而，与视觉和自然语言处理不同，高质量的具身数据获取是非常困难的，且不同机器人的数据往往难以通用。

现有研究主要通过借助基础模型作为基础具身策略，但由于机器人和其他领域数据存在较大差异，基础策略往往在具身场景中存在适应性和泛化难题。

近期，上海人工智能实验室、香港科技大学、上海交通大学等联合提出的大规模人类视频预训练和具身策略微调算法给出了一个合理的解决方案，提出了全新的基于视频预测扩散模型的高效策略学习算法：Video-based Policy Learning via Discrete Diffusion（VPDD）来解决该问题。

通过从大规模人类操作数据 Ego4d 学习统一的视频表征，使用大量无动作视频构建自监督视频预测扩散模型预训练任务，并在少量有动作标记的具身数据上进行高效策略微调，能够使通用人类操作视频中编码的物理世界先验知识适应于具身任务，仅利用少量机器人轨迹在 RLBench 等 3D 通用机械臂操作任务集合中获得优异的性能。

通常，学习具身策略往往需要结构化的机器人数据集来进行强化学习或模仿学习训练，数据集中包含机器人观测、动作、奖励或者专家状态-动作。然而，针对特定场景的机器人数据往往非常有限，难以覆盖完整的状态-动作空间决策，在相似场景和真实世界的策略泛化中存在较大困难。一个直觉的解决方案是，能否利用在其他领域的大规模视频数据，特别是人类操作视频来帮助具身决策？

人类在现实场景中第一视角的物体操作视频和机器人操作任务具有高度的相似性，包含了物理世界的交互信息，并具有多元的任务场景和复杂的视觉背景，可以帮助具身策略学习物体操作的先验知识。

近期部分工作开始利用人类操作数据去辅助策略学习，然而，现有研究主要集中于从人类视频中提取图像表征或者 Affordance 区域，局限在图像的特征表示而忽略了人类操作视频中蕴含的丰富时序信息的行为信息，不同于现有方法，本研究提出构建基于视频预测（video prediction）来获取智能体对未来轨迹的估计，同时通过机器人数据获得可执行动作的智能体，挖掘在人类操作视频和机器人数据上统一的行为模式。

为了有效利用大量人类数据，设计了预训练（pre-traiining）和微调（fine-tuning）的框架，前者可以 scaling up 到大规模的视频数据集，后者可以利用少量数据快速迁移至下游任务。该论文创新性地提出了 VPDD，一种利用离散扩散模型生成未来运动轨迹（视频）并将预训练学习的知识快速迁移至决策中的方法。

VPDD 可以灵活地处理各种视频输入的机械臂操作任务，包括单视角相机的 Meta-World（2D 操作）以及多视角相机的 RLBench（3D 操作）。受限于计算资源和模型规模，VPDD 在视频生成上仍有瑕疵，对于某些样本可能存在轨迹不连续或者视角不匹配的问题。未来的工作可以在这些方面继续进行优化。