ECCV 2020 附代码论文合集 (目标检测)

作者: 小心肝

来源: 学术头条

发布日期: 2020-08-20

本文介绍了ECCV 2020会议中关于目标检测的论文合集,涵盖了2D和3D目标检测、旋转目标检测以及视频目标检测等多个领域。每篇论文都附带了相应的代码,便于读者实践。文章详细讨论了多种创新技术,如Dense Rep Points、Corner Proposal Network、BorderDet、多尺度正样本优化、PIoU损失、基于伪激光雷达的3D检测、基于柱的目标检测、EPNet以及可学习时空采样模块等,展示了这些技术在提升目标检测性能方面的显著效果。

上次我们给大家带来了关于CNN与图像分割主题的论文,本次的主题是目标检测,包含2D、3D的目标检测,旋转目标检测,视频目标检测,同样每篇论文都附带论文代码,大家在阅读论文的同时也可亲自动手实践,快来看看吧!

目标检测是与计算机视觉与图像处理的计算机技术,处理的是在数字图像和视频中检测出的特定类别的语义对象(如人类、建筑物或汽车)的实例。目标检测的研究领域包括人脸检测和行人检测。目标检测在计算机视觉的许多领域都有应用,包括图像检索和视频监控。

本文提出了一种对象表示法,称为dense Rep Points,用于灵活而详细地建模对象外观和几何体。

与边界框的粗几何定位和特征提取不同,DenseRepPoints自适应地将一组密集的点分布到对象上具有重要几何意义的位置,为对象分析提供信息提示。技术的发展是为了解决与监督训练从图像片段和符号密集点集相关的挑战,并使这种广泛的表示在理论上是可行的。此外,该表示的多功能性被用于在多个粒度级别上建模对象结构。

稠密的表示点显著提高了面向几何的可视化理解任务的性能,包括在具有挑战性的COCO基准测试中对象检测的1:6AP增益。

目标检测的目标是确定目标在图像中的类别和位置。本文提出了一种新的无锚的两阶段框架,该框架首先通过寻找潜在的角点组合来提取多个目标方案,然后通过独立的分类阶段为每个方案分配一个类别标签。作者证明这两个阶段分别是提高查全率和查准率的有效解决方案,并且可以集成到一个端到端网络中。

他们的方法被称为角点建议网络(Corner proposition Network,CPN),它具有检测不同尺度对象的能力,并且避免了被大量的误报建议所迷惑。在MS-COCO数据集上,CPN达到了49.2%的AP,这在现有的目标检测方法中具有竞争力。CPN同样适用于计算效率的场景,在26.2/43.3fps时,CPN的AP达到41.6%/39.7%,超过了大多数具有相同推理速度的竞争对手。

密集型目标探测器依赖于滑动窗口模式,它可以在规则的图像网格上预测目标。同时,采用网格点上的特征映射生成边界盒预测。点特征使用方便,但可能缺少精确定位的明确边界信息。本文提出了一种简单高效的边界对齐算子,从边界的极值点提取“边界特征”,以增强点特征。在BorderAlign的基础上,作者设计了一种新的检测体系结构BorderDet,它明确地利用了边界信息来实现更强的分类和更精确的定位。

使用ResNet-50主干,他们的方法将单级探测器FCOS提高了2.8 AP增益(38.6 v.s.41.4)。通过ResNeXt-101-DCN主干,他们的BorderDet获得了50.3 AP,优于现有的最新方法。

少镜头目标检测(FSOD)有助于检测器适应训练实例较少的看不见的类,在手动标注耗时或数据采集受限的情况下非常有用。

与以往利用少量镜头分类技术来促进FSOD的尝试不同,本研究强调了处理尺度变化问题的必要性,该问题由于样本分布的独特性而具有挑战性。为此,作者提出了一种多尺度正样本优化(MPSR)方法来丰富FSOD中的目标尺度。它生成多尺度正样本作为目标金字塔,并在不同尺度上对预测进行细化。作者通过将其作为一个辅助分支集成到流行的快速R-CNN和FPN架构中,展示了它的优势,提供了一个强大的FSOD解决方案。

在PASCAL-VOC和MS-COCO上进行了多个实验,结果表明,该方法取得了最新的结果,显著优于其他同类方法,显示了其有效性。

使用定向包围盒(OBB)进行目标检测,可以减少与背景区域的重叠,从而更好地定位旋转对象。现有的OBB方法大多建立在水平包围盒探测器上,通过引入一个额外的角度维度,通过距离损失来优化。

然而,由于距离损失只会最小化OBB的角度误差,并且它与IoU松散相关,因此它对高宽高比的对象不敏感。因此,提出了一种新的损失,像素IoU(PIoU)损失,利用角度和IoU进行精确的OBB回归。PIoU损失由IoU度量导出,采用像素形式,简单易行,适用于水平和定向包围盒。为了证明其有效性,作者评估了基于锚定和无锚框架的PIoU损失。

实验结果表明,PIoU损耗可以显著提高OBB探测器的性能,特别是对于高宽高比和复杂背景的目标。此外,以前的评估数据集不包括对象具有高宽高比的场景,因此引入了一个新的数据集Retail50K,以鼓励社区采用OBB检测器来适应更复杂的环境。

最近提出的基于伪激光雷达的三维探测器大大提高了单目/立体三维探测任务的基准。然而,研究界对其潜在的机制仍不清楚。

本文对伪激光雷达的数据表示进行了深入研究,发现伪激光雷达表示的有效性来自于坐标变换,而不是数据表示本身。在此基础上,作者设计了一种基于图像的CNN探测器Patch-Net,它是一种更通用的、可以实例化为基于伪激光雷达的3D探测器。此外,本文的PatchNet中的伪激光雷达数据被组织为图像表示,这意味着现有的2D CNN设计可以很容易地用于从输入数据中提取深层特征并提高3D检测性能。

作者在具有挑战性的KITTI数据集上进行了大量的实验,其中提出的PatchNet优于所有现有的基于伪激光雷达的同类产品。

本文提出了一种简单灵活的自动驾驶目标检测框架。在观察到该应用中的点云非常稀疏的基础上,提出了一种实用的基于柱的方法来解决锚定引起的不平衡问题。特别地,本文的算法在多视点特征学习中加入了柱面投影,预测了每个柱而不是每个点或每个锚点的边界盒参数,并且包含了一个对齐的柱到点投影模块来提高最终预测。本文的无锚方法避免了与以往方法相关的超参数搜索,简化了三维目标检测,同时显著提高了最先进的水平。

本文针对三维检测任务中的两个关键问题,即多传感器(即LiDAR点云和相机图像)的开发以及定位和分类置信度之间的一致性。为此,作者提出了一种新的融合模块,在不需要任何图像注释的情况下,对具有语义特征的点特征进行逐点增强。此外,使用一致性强制损失来明确鼓励本地化和分类可信度的一致性。作者设计了一个端到端的可学习框架EPNet来集成这两个组件。

在KITTI和SUN-RGBD数据集上进行的大量实验证明了EPNet优于最先进的方法。

将现有的基于图像的检测器转移到视频中是非常重要的,因为部分遮挡、罕见姿势和运动模糊会导致帧质量下降。以前的方法利用光流翘曲在视频帧间传播和聚集特征。然而,直接将图像级光流应用于高层特征可能无法建立精确的空间对应关系。为此,提出了一种新的可学习时空采样(LSTS)模块来准确地学习相邻帧特征之间的语义级对应关系。

首先对采样点进行随机初始化,然后迭代更新,在检测监督的指导下逐步寻找更好的空间对应关系。此外,还分别引入稀疏递归特征更新(SRFU)模块和密集特征聚合(DFA)模块来建模时间关系和增强每帧特征。该方法在imagenetvid数据集上实现了最先进的性能,计算复杂度和实时速度都很低。

UUID: fc7df83d-d12f-4d41-b106-05092dd37b40

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2020年-下/2020-08-20_ECCV2020附代码论文合集(目标检测).txt

是否为广告: 否

处理费用: 0.0083 元