ICCV2019录用论文解读

本文整理了ICCV2019收录的8篇论文，有来自上海交通大学的有关图匹配方向的研究，北京大学语言分割的研究成果，以及Facebook对于动作识别的研究进展等。

Learning Combinatorial Embedding Networks for Deep Graph Matching

作者：Runzhong Wang, Junchi Yan, Xiaokang Yang（上海交通大学）

这篇论文聚焦于计算机视觉领域一项历久弥新的问题：图匹配问题。在计算机视觉中，图匹配旨在利用图结构信息，寻找物体之间节点与节点的对应关系。已有的研究工作通常从数学优化的角度求解图匹配的数学形式，而忽视了机器学习、尤其是深度学习在图匹配问题上的巨大潜力。

Pose-aware Multi-level Feature Network for Human Object Interaction Detection

作者：Bo Wan，Desen Zhou，Yongfei Liu，Rongjie Li，Xuming He

本文提出了一种新颖的人-物体交互检测模型，在多个数据集上该方法展现出大大优于现有最佳方法的性能。在人-物体交互检测任务中，人与物体交互方式的多样性以及交互场景的复杂性，相比于传统的视觉任务存在更多挑战。研究人员提出了一种多层级的交互关系识别策略，包括交互区域、物体、人体语义三个层级。

Liquid Warping GAN：A Unified Framework for Human Motion Imitation，Appearance Transfer和Novel View Synthesis

作者：Wen Liu，Zhixin Piao，Jie Min，Wenhan Luo，Lin Ma，Shenghua Gao

该文提出了一套适用于人体动作迁移、人体换衣和人体新视角生成的统一框架。该框架由人体三维网格估计模块和对抗生成网络模块组成。以人体动作迁移为例，三维人体网格估计模块首先对输入的图片（人物A和B）中的人体进行三维网格建模（只包含身体部分），然后并对其可见部分进行纹理提取。

Expectation-Maximization Attention Networks for Semantic Segmentation

作者：Xia Li，Zhisheng Zhong，Jianlong Wu，Yibo Yang，Zhouchen Lin，Hong Liu

近年来，自注意力机制在自然语言处理领域取得卓越成果。本文所提出的期望最大化注意力机制（EMA），摒弃了在全图上计算注意力图的流程，转而通过期望最大化（EM）算法迭代出一组紧凑的基，在这组基上运行注意力机制，从而大大降低了复杂度。

DeepGCNs：Can GCNs Go as Deep as CNNs？

作者：Guohao Li，Matthias Müller，Ali Thabet，Bernard Ghanem

卷积神经网络（CNN）在各种领域取得了令人瞩目的成果。他们的成功得益于能够训练非常深的CNN模型。尽管取得了积极的成果，但CNN未能正确解决非欧几里德数据的问题。为了克服这一挑战，图卷积网络（GCN）构建图来表示非欧几里德数据，借用CNN的相关概念并应用它们来训练这些模型。

Sampling Salient Clips from Video for Efficient Action Recognition

作者：Bruno Korbar，Du Tran，Lorenzo Torresani（Facebook AI）

虽然许多动作识别数据集由包含相关动作的简短剪辑视频集合组成，但现实世界（例如，在Youtube上）中的视频显示出非常不同的特性：它们通常有几分钟长，其中简短的相关剪辑通常与包含很少变化的长时段交织在一起。

Learn to Scale：Generating Multipolar Normalized Density Maps for Crowd Counting

作者：Chenfeng Xu，Kai Qiu，Jianlong Fu，Song Bai，Yongchao Xu，Xiang Bai

密集人群计数旨在通过计算密度图的图像像素的积分，从图像中预测大量的人类实例的个数。现有方法主要受到严重的密度变化的影响，这样的密度模式变化甚至对于集成的多尺度模型也提出了挑战。

A Closed-form Solution to Universal Style Transfer

作者：Ming Lu，Hao Zhao，Anbang Yao，Yurong Chen，Feng Xu，Li Zhang

通用样式转换试图减少特征空间中的损失，因此不需要对任何预定义样式进行训练。它通常使用不同层次的VGG网络作为编码器，训练多个解码器将特征转化为图像。因此，风格转换的效果是通过特征变换来实现的。