在 CVPR 2020 上,商汤搜索与决策团队与中科院自动化所合作,针对超大规模多标签目标检测任务,提出了有效的解决方案。该工作以真实世界中的通用检测任务为背景,分析了主要面临的痛点,在损失函数和采样方法上提出了创新,有效地改善了痛点并在量化指标上有显著提升。在深度学习中,数据始终是至关重要的因素之一。随着硬件与算法的发展,在学术界和工业界,对数据规模的需求也越来越强。
然而在大规模数据的场景下,出现了许多新的挑战,也使得算法的边界将产生新的定义。本文以 Open Images 数据库为例来模拟真实世界下的超大规模检测,该数据库拥有 170 万训练图片,1240 万框图并包含 500 个目标类别。在该场景下,我们分析了主要面临的痛点问题:显式多标签问题、隐式多标签问题、类别的长尾效应。
面对显示和隐式的多标签问题,检测中常用的 softmax 将导致多标签之间产生响应值的竞争。这种竞争不仅使得多标签的预测概率明显降低,还会导致训练过程中优化目标的方向错误。针对以上观察,本文提出了 concurrent-softmax,在训练和测试过程中,根据目标的多标签和类别的隐性依赖关系输出每种类别的概率值。该算法有效地解决了训练过程中的多标签优化难点,并改善了预测过程中多标签的竞争问题。
长尾效应的主要痛点主要在于部分类别出现频率过高,部分类别出现频率极低,天然采样方法从而导致检测器对稀少类欠拟合。典型的解决方案是均匀采样法,本文提出了混合采样和混合训练法以渐进式地逐步改善以上两个问题。
该文章对真实场景下的大规模多标签目标检测问题做了较为全面的分析,并提出了有效可靠的解决方案,为未来类似场景下研究提供了一定的经验和思路。