用于「人物交互检测」的可迁移交互知识

本文出自上海交通大学卢策吾教授研究组，发表于人工智能领域顶级期刊 IEEE TPAMI。作者针对「人 - 物交互检测」任务（HOI）中的可迁移交互知识展开了研究，提出了一种二阶段的强大神经网络模型，通过一种层次化的方式同时利用了实例级、部位级的特征，在 HOI 任务取得了目前最佳的性能。

「人 - 物交互检测」（HOI）对于理解人与物如何进行交互而言是一个重要问题。在本文中，我们针对 HOI 问题中的交互性知识（即一个人与一个物体是否相互作用的知识）展开了研究。我们发现，可以学习到跨多个 HOI 数据集的交互性知识，并以此弥平不同的 HOI 类别设定之间的差距。

「人 - 物」交互（HOI）检测旨在检索出人类和物体在静态图像中的位置，同时推断出它们之间的交互类别。作为视觉关系任务的一类子任务，HOI 与对人类身体和物体的理解紧密相关。HOI 对于行为理解至关重要，它对行为理解（activity understanding）、模仿学习（imitation learning）等任务都可以起到促进作用。

基于上述思考，我们提出了一种「交互知识学习」方法。通过使用我们提出的方法，可以跨数据集学习到交互性，并且将其应用于任意特定的数据。通过利用交互性，我们使用两个阶段来识别 HOI：（1）判断某个「人 - 物」对是否存在交互关系；（2）将「人 - 物」对分类为特定的 HOI。

在本文中，我们提出了一种新型二阶段方法对「人 - 物」对进行层次化的分类，我们将这种方法称为可迁移的交互性网络（TIN），它由三个网络组成：（1）表征网络，即特征提取器，记为数学公式：R；（2）HOI 网络，分类器，记为数学公式：C；（3）交互性网络，判别器，记为数学公式：D。

在本文中，我们在 HICO-DET、V-COCO 和一个新构建的 PaStaNet-HOI 数据集上展开了广泛的实验。通过将本文提出的方法与迁移的交互性结合起来，我们在 HICO-DET 数据集上的「Default」、「Rare」两个场景下分别在 mAP 指标上获得了超出目前最佳方法 1.53 和 4.35 的性能。