用于「人物交互检测」的可迁移交互知识

作者: Yong-Lu Li, Xinpeng Liu, Xiaoqian Wu, Xijie Huang, Liang Xu, Cewu Lu

来源: IEEE TPAMI

发布日期: 2021/01/25

本文提出了一种用于「人 - 物交互检测」(HOI)任务的二阶段神经网络模型,通过层次化的方式同时利用实例级和部位级的特征,在多个数据集上取得了最佳性能。文章详细介绍了模型的架构、训练方法以及实验结果,展示了其在HOI检测任务中的有效性和灵活性。

本文出自上海交通大学卢策吾教授研究组,发表于人工智能领域顶级期刊 IEEE TPAMI。作者针对「人 - 物交互检测」任务(HOI)中的可迁移交互知识展开了研究,提出了一种二阶段的强大神经网络模型,通过一种层次化的方式同时利用了实例级、部位级的特征,在 HOI 任务取得了目前最佳的性能。

「人 - 物交互检测」(HOI)对于理解人与物如何进行交互而言是一个重要问题。在本文中,我们针对 HOI 问题中的交互性知识(即一个人与一个物体是否相互作用的知识)展开了研究。我们发现,可以学习到跨多个 HOI 数据集的交互性知识,并以此弥平不同的 HOI 类别设定之间的差距。

「人 - 物」交互(HOI)检测旨在检索出人类和物体在静态图像中的位置,同时推断出它们之间的交互类别。作为视觉关系任务的一类子任务,HOI 与对人类身体和物体的理解紧密相关。HOI 对于行为理解至关重要,它对行为理解(activity understanding)、模仿学习(imitation learning)等任务都可以起到促进作用。

基于上述思考,我们提出了一种「交互知识学习」方法。通过使用我们提出的方法,可以跨数据集学习到交互性,并且将其应用于任意特定的数据。通过利用交互性,我们使用两个阶段来识别 HOI:(1)判断某个「人 - 物」对是否存在交互关系;(2)将「人 - 物」对分类为特定的 HOI。

在本文中,我们提出了一种新型二阶段方法对「人 - 物」对进行层次化的分类,我们将这种方法称为可迁移的交互性网络(TIN),它由三个网络组成:(1)表征网络,即特征提取器,记为数学公式:R;(2)HOI 网络,分类器,记为数学公式:C;(3)交互性网络,判别器,记为数学公式:D。

在本文中,我们在 HICO-DET、V-COCO 和一个新构建的 PaStaNet-HOI 数据集上展开了广泛的实验。通过将本文提出的方法与迁移的交互性结合起来,我们在 HICO-DET 数据集上的「Default」、「Rare」两个场景下分别在 mAP 指标上获得了超出目前最佳方法 1.53 和 4.35 的性能。

UUID: 010527cb-5347-4650-b6e1-18d607fb23e6

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-03-15_用于「人-物交互检测」的可迁移交互知识.txt

是否为广告: 否

处理费用: 0.0072 元