本文解读了香港大学联合中山大学和深睿医疗人工智能实验室ICCV2019论文《Motion Guided Attention for Video Salient Object Detection》。该文提出了基于运动注意力的视频显著物体检测方法(MGA),比之前最好的算法在DAVIS和FBMS数据集上分别提升了4个和8个百分点!
显著物体检测问题要求对于每张图片或视频帧,预测一个二类别的像素级分割结果,用以表征图片中的显著或前景物体。随着深度学习技术的发展,面向图片的显著物体检测方法被广泛研究,而面向视频的显著物体检测有待进一步探索。
为了解决视频的显著物体检测,该论文作者有以下观察:其一,视频物体的显著性由其外观和运动共同决定,显著物体的运动往往也是显著的,显著运动的区域很可能是显著物体;其二,物体的运动蕴含空间连贯性信息,运动状态相似的相邻区域很可能同属于一个物体或者背景;其三,利用运动信息的空间连贯性,有助于分离物体和背景。作者提出一系列运动注意力模块,来建模显著运动如何结合外观信息来影响物体显著性。
作者还提出了一个双分支网络,用以放置上述注意力模块,来实现视频显著物体检测。MGAnet是一个基于DeepLab-V3+的双分支网络。MGA-{0-5}可看作部署注意力模块的“槽”,其中MGA-5仅可采用模型一(运动信息是二维显著图),MGA-0至MGA-4可采取模型二三四中的某一种,一般采用同一种。实验结果显示,双分支结构有效利用了运动信息,优于任一单分支网络。
总的来说,作者利用运动的空间连贯性,采用注意力机制来建模运动对物体显著性的影响,提出了一个简单但准确率高的双分支网络。