本文出自上海交通大学卢策吾教授研究组,发表于人工智能领域顶级期刊 IEEE TPAMI。作者针对「人 - 物交互检测」任务(HOI)中的可迁移交互知识展开了研究,提出了一种二阶段的强大神经网络模型,通过一种层次化的方式同时利用了实例级、部位级的特征,在 HOI 任务取得了目前最佳的性能。
「人 - 物交互检测」(HOI)对于理解人与物如何进行交互而言是一个重要问题。在本文中,我们针对 HOI 问题中的交互性知识(即一个人与一个物体是否相互作用的知识)展开了研究。我们发现,可以学习到跨多个 HOI 数据集的交互性知识,并以此弥平不同的 HOI 类别设定之间的差距。
「人 - 物」交互(HOI)检测旨在检索出人类和物体在静态图像中的位置,同时推断出它们之间的交互类别。作为视觉关系任务的一类子任务,HOI 与对人类身体和物体的理解紧密相关。HOI 对于行为理解至关重要,它对行为理解(activity understanding)、模仿学习(imitation learning)等任务都可以起到促进作用。
基于上述思考,我们提出了一种「交互知识学习」方法。通过使用我们提出的方法,可以跨数据集学习到交互性,并且将其应用于任意特定的数据。通过利用交互性,我们使用两个阶段来识别 HOI:(1)判断某个「人 - 物」对是否存在交互关系;(2)将「人 - 物」对分类为特定的 HOI。
在本文中,我们提出了一种新型二阶段方法对「人 - 物」对进行层次化的分类,我们将这种方法称为可迁移的交互性网络(TIN),它由三个网络组成:(1)表征网络,即特征提取器,记为数学公式:R;(2)HOI 网络,分类器,记为数学公式:C;(3)交互性网络,判别器,记为数学公式:D。
在本文中,我们在 HICO-DET、V-COCO 和一个新构建的 PaStaNet-HOI 数据集上展开了广泛的实验。通过将本文提出的方法与迁移的交互性结合起来,我们在 HICO-DET 数据集上的「Default」、「Rare」两个场景下分别在 mAP 指标上获得了超出目前最佳方法 1.53 和 4.35 的性能。