SMAP: 单步多人绝对三维姿态估计

由单帧彩色图像恢复多人的三维姿态和人与相机的绝对位置关系是一个具有挑战性的任务，因为图像在拍摄过程中损失了深度和尺度信息。在ECCV2020上，商汤与浙大联合实验室提出了单步多人绝对三维姿态估计网络和2.5D人体姿态表示方法，并且基于所提出的深度已知的关键点匹配算法，得到绝对三维人体姿态。

该方法结合图像的全局特征和局部特征，能获得准确的人体前后关系和人与相机的距离，在CMU Panoptic和MuPoTS-3D多人三维人体姿态估计数据集上均达到SOTA（state-of-the-art），并且在未见过的场景中具有很好的泛化能力。

基于单帧图像的人体绝对三维姿态估计在混合现实、视频分析、人机交互等领域有很广泛的应用。

近几年研究人员多将注意力集中于人体相对三维姿态估计任务上，并且取得了不错的成果。但是对于多人场景下人体绝对三维姿态估计任务，除了要估计相对人体三维姿态，更重要的是估计人与相机的绝对位置关系。当前大多数方法对检测到的人体区域进行裁剪后，分别估计绝对位置。

有的方法利用检测框的大小作为人体尺寸的先验，通过网络回归深度信息，但是这样的方法忽略了图像的全局信息；另外一些方法基于一些假设，通过后处理的手段估计人体深度，如地面约束，但是这样的方法依赖于姿态估计的准确度，而且很多假设在实际场景中无法满足（比如人脚不可见）。我们认为要准确地估计人的绝对三维位置需要利用图像中所有与深度相关的信息，比如人体尺寸、前后遮挡关系、人在场景中的位置等。

近年来有很多工作利用卷积神经网络回归场景的深度信息，这启发我们使用网络直接估计场景中所有人的深度信息，而不是在后处理过程中恢复深度。综上，我们提出了新的单步自底向上的方法估计多人场景的人体绝对三维姿态，它可以在一次网络推理后得到所有人的绝对位置信息和三维姿态信息。另外，我们还提出了基于深度信息的人体关键点匹配算法，包括深度优先匹配和自适应骨长约束，进一步优化关键点的匹配结果。

上图展示了所提出方法的流程，包括SMAP网络，基于深度的关键点匹配(Depth-Aware Part Association), 和可选的微型优化网络（RefineNet）。输入一张彩色图像，SMAP网络同时输出人体根节点深度图（Root Depth Map）、二维关键点热度图（Heatmaps）、关键点连接向量场（PAFs）和骨骼相对深度图（Part Relative-Depth Maps）。

基于以上的2.5D特征表示方法，进行关键点匹配，然后利用相机模型得到人体绝对三维关键点坐标。最后，可以使用微型优化网络对结果进行补全和优化。

我们提出的方法在CMU Panoptic和MuPoTS-3D多人三维人体姿态估计数据集上均达到SOTA。另外，我们对不同可选的深度估计方法进行了对比。第一种，回归全图的深度[1]，如图第一列；第二种，根据检测框的尺寸回归人体深度[2]，如图第二列。

散点图的横坐标为人体深度估计值，纵坐标为实际值，散点越靠近x=y直线说明回归的深度越准确。可以看出，我们提出的方法（Root Depth Map）具有更好的深度一致性和泛化能力。为了体现单步自底向上网络相对于自顶向下网络[2]的优势，我们进行了定性分析。图中左边为自顶向下网络的结果，可见自顶向下的方法会受到姿态变化、人体遮挡、人体截断的影响，而我们提出的自底向上的方法可以利用全局信息缓解这个问题。